文章/答案/技术大牛

发布

社区首页 >问答首页 >设置Hadoop集群大概需要多少半结构化数据？

问设置Hadoop集群大概需要多少半结构化数据？
EN

Stack Overflow用户

提问于 2011-01-11 19:37:24

回答 2查看 194关注 0票数 1

我知道，Hadoop不仅仅是半结构化数据处理的替代方案--我可以用普通的制表符分隔的数据和一堆unix工具(cut、grep、sed等)做很多事情。和手写的python脚本。但有时我会得到非常大量的数据，处理时间长达20-30分钟。这对我来说是不可接受的，因为我想要动态地试验dataset，运行一些半即席查询等等。

那么，就这种方法的成本结果而言，您认为多少数据量足以设置Hadoop集群？

bigdata

hadoop

回答 2

Stack Overflow用户

发布于 2011-01-12 02:14:46

在不知道你在做什么的情况下，以下是我的建议：

如果您想对数据运行即席查询，Hadoop不是最佳选择。你有没有试过把你的数据加载到数据库中并在上面运行查询？
如果你想尝试使用Hadoop而不需要建立集群的成本，试着使用亚马逊的Elastic MapReduce。我亲眼看到人们使用外壳脚本来完成这些任务。您是否尝试过使用SSH在机器上分发您的工作？GNU Parallel让这一切变得非常简单：http://www.gnu.org/software/parallel/

票数 2

Stack Overflow用户

发布于 2011-01-16 03:51:09

我认为这个问题有几个方面。第一个问题--你可以用MySQL/Oracle等常用的SQL技术实现什么?如果你能用它们来解决问题--我认为这会是一个更好的解决方案。

还应该指出的是，hadoop处理表格数据的速度将比传统的DBMS慢得多。因此，我要谈到第二个方面--您准备好构建超过4台机器的hadoop集群了吗？我认为4-6台机器是最低限度的，可以感受到一些收益。

第三个方面是-您是否准备好等待数据加载到数据库-这可能需要时间，但随后查询将会很快。因此，如果您对每个数据集执行几个查询，这就是hadoop advantage。

回到最初的问题-我认为您至少需要100-200 GB的数据，因此Hadoop处理将具有一定的意义。我认为2 TB清楚地表明hadoop可能是一个不错的选择。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/4657195

复制

相似问题

问设置Hadoop集群大概需要多少半结构化数据？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问设置Hadoop集群大概需要多少半结构化数据？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问设置Hadoop集群大概需要多少半结构化数据？
EN