文章/答案/技术大牛

发布

社区首页 >问答首页 >向hadoop还是非hadoop

问向hadoop还是非hadoop
EN

Stack Overflow用户

提问于 2016-05-31 09:42:25

回答 2查看 304关注 0票数 1

我们有数据(在这一点上没有分配)，我们希望将/聚合/支点转换到wazoo。

我看了一下www，所有的答案都指向hadoop :可伸缩的、廉价的运行(没有SQL服务器机器和许可证)、快速(如果你有很多数据)、可编程的(不是你拖动的小盒子)。

我一直遇到一个问题，那就是：“如果您有超过10 if的数据，就使用hadoop”。

现在我们甚至没有1gb的数据(在这个阶段)，它仍然可行吗？

我的另一个选择是SSIS。现在，我们确实将SSIS用于当前的一些ETL，但是我们没有用于它的资源，将SQL放到云中只会花费很多钱，甚至不让我开始讨论可伸缩性成本和配置。

谢谢

etl

hadoop

ssis

回答 2

Stack Overflow用户

回答已采纳

发布于 2016-05-31 12:23:34

您当前的数据量似乎太低，无法进入hadoop。只有在处理海量数据(TB/年)和怀疑数据量呈指数增长的情况下，才能进入hadoop生态系统。

让我解释一下为什么我反对hadoop这么少的数据量。默认情况下，hadoop将您的文件存储在128 of的数据块中，并且在处理的同时，它需要同时处理128 of块(并行)。如果您的业务需求涉及大量的CPU密集型处理，则可以将输入块大小从128 If减少到更少。但是，通过减少并行处理的数据量，最终将增加IO seaks(低级别块存储)的数量。最后，您可能会花费更多的资源来管理任务，而不是实际的任务。因此，尝试避免将分布式计算作为(低)数据量的解决方案。

票数 2

Stack Overflow用户

发布于 2016-06-13 05:23:51

正如@Makubex所建议的，不要使用hadoop。

SISS是一个很好的选择，因为它处理内存中的数据，因此它将以比使用存储过程中的临时表写入磁盘更快的速度执行数据聚合、数据类型转换、合并等。

Hadoop是针对大量数据的，我建议它只适用于以in为单位的数据。对于小型数据集来说，SISS(在内存中运行)要慢得多。

参考：何时对ETL使用或SSIS

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/37542206

复制

相似问题

问向hadoop还是非hadoop
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问向hadoop还是非hadoopEN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问向hadoop还是非hadoop
EN