首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >设置Hadoop集群大概需要多少半结构化数据?

设置Hadoop集群大概需要多少半结构化数据?
EN

Stack Overflow用户
提问于 2011-01-11 19:37:24
回答 2查看 194关注 0票数 1

我知道,Hadoop不仅仅是半结构化数据处理的替代方案--我可以用普通的制表符分隔的数据和一堆unix工具(cut、grep、sed等)做很多事情。和手写的python脚本。但有时我会得到非常大量的数据,处理时间长达20-30分钟。这对我来说是不可接受的,因为我想要动态地试验dataset,运行一些半即席查询等等。

那么,就这种方法的成本结果而言,您认为多少数据量足以设置Hadoop集群?

EN

回答 2

Stack Overflow用户

发布于 2011-01-12 02:14:46

在不知道你在做什么的情况下,以下是我的建议:

  • 如果您想对数据运行即席查询,Hadoop不是最佳选择。你有没有试过把你的数据加载到数据库中并在上面运行查询?
  • 如果你想尝试使用Hadoop而不需要建立集群的成本,试着使用亚马逊的Elastic MapReduce。我亲眼看到人们使用外壳脚本来完成这些任务。您是否尝试过使用SSH在机器上分发您的工作?GNU Parallel让这一切变得非常简单:http://www.gnu.org/software/parallel/
票数 2
EN

Stack Overflow用户

发布于 2011-01-16 03:51:09

我认为这个问题有几个方面。第一个问题--你可以用MySQL/Oracle等常用的SQL技术实现什么?如果你能用它们来解决问题--我认为这会是一个更好的解决方案。

还应该指出的是,hadoop处理表格数据的速度将比传统的DBMS慢得多。因此,我要谈到第二个方面--您准备好构建超过4台机器的hadoop集群了吗?我认为4-6台机器是最低限度的,可以感受到一些收益。

第三个方面是-您是否准备好等待数据加载到数据库-这可能需要时间,但随后查询将会很快。因此,如果您对每个数据集执行几个查询,这就是hadoop advantage。

回到最初的问题-我认为您至少需要100-200 GB的数据,因此Hadoop处理将具有一定的意义。我认为2 TB清楚地表明hadoop可能是一个不错的选择。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/4657195

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档