我知道,Hadoop不仅仅是半结构化数据处理的替代方案--我可以用普通的制表符分隔的数据和一堆unix工具(cut、grep、sed等)做很多事情。和手写的python脚本。但有时我会得到非常大量的数据,处理时间长达20-30分钟。这对我来说是不可接受的,因为我想要动态地试验dataset,运行一些半即席查询等等。
那么,就这种方法的成本结果而言,您认为多少数据量足以设置Hadoop集群?
发布于 2011-01-12 02:14:46
在不知道你在做什么的情况下,以下是我的建议:
发布于 2011-01-16 03:51:09
我认为这个问题有几个方面。第一个问题--你可以用MySQL/Oracle等常用的SQL技术实现什么?如果你能用它们来解决问题--我认为这会是一个更好的解决方案。
还应该指出的是,hadoop处理表格数据的速度将比传统的DBMS慢得多。因此,我要谈到第二个方面--您准备好构建超过4台机器的hadoop集群了吗?我认为4-6台机器是最低限度的,可以感受到一些收益。
第三个方面是-您是否准备好等待数据加载到数据库-这可能需要时间,但随后查询将会很快。因此,如果您对每个数据集执行几个查询,这就是hadoop advantage。
回到最初的问题-我认为您至少需要100-200 GB的数据,因此Hadoop处理将具有一定的意义。我认为2 TB清楚地表明hadoop可能是一个不错的选择。
https://stackoverflow.com/questions/4657195
复制相似问题