文章/答案/技术大牛

发布

社区首页 >问答首页 >Hadoop机器配置

问Hadoop机器配置
EN

Stack Overflow用户

提问于 2016-02-05 19:01:36

回答 2查看 140关注 0票数 0

我想分析7TB的数据，并将输出存储在数据库中，比如HBase。我每月的增量是500 go，但要分析500 go的数据，我不需要再次查看7TB的数据。

目前我正在考虑使用Hadoop和Hive来分析数据，使用Hadoop和MapReducer和HBase来处理和存储数据。

目前我有5台机器，配置如下：

数据节点服务器配置: 2-2.5 Ghz六核CPU、48 GB RAM、1 TB -7200 RPM (X 8)

数据节点数:5

名称节点服务器:企业级服务器配置(X 2) (额外1个，用于辅助服务器

我想知道以上过程是否足够满足要求，以及是否有人有任何建议。

hadoop

configuration

architecture

hive

回答 2

Stack Overflow用户

发布于 2016-02-05 20:28:53

大小调整 Hortonworks提供了一个公式来计算您的大小

((初始大小+同比增长+中间数据大小)*剩余计数* 1.2) /Comp比率

假设默认变量

repl_count == 3(默认值) comp_ration = 3-4 (默认值)中间数据大小=原始数据大小的30%-50%。- 1,2系数-临时空间

因此，在第一年，您将需要16.9 TB。您拥有8 8TB*5 == 40。所以空间不是主题。

Performance 5数据节点。在单个驱动器上读取1 TB数据平均需要2.5小时( Hadoop来源-权威指南)。600 GB，一个驱动器需要1.5个小时。

内存消耗

48 GB不是很多。许多数据节点的默认RAM从128 GB开始。如果您仅将集群用于处理，则可能会成功。另外，您如何配置集群以及使用哪些技术进行处理，这也取决于此。如果你有并发访问，你可能会遇到堆错误。

总结一下：

这在很大程度上取决于你想对集群做什么，以及你的查询有多复杂。还要记住，并发访问可能会产生问题。

如果处理600 GB数据18分钟时间(作为基准-实际值取决于许多未知因素对这些问题的回答)就足够了，并且您没有并发访问，那就试试吧。

票数 0

Stack Overflow用户

发布于 2016-02-08 15:54:07

我建议在到达时转换数据。通过切换到列式压缩格式，如ORC或Parquet，Hive可以极大地提高速度。我们讨论的是潜在的x30-x40乘以improvements in queries performance。有了最新的蜂窝，你可以在兽人文件上利用streaming data ingest。

你可以让事情按计划进行(HBase +蜂窝)，只需依靠蛮力5x (6核，48 to，7200rpm)，但你不需要这样做。一些工作可以让您进入交互式即席查询时间域，这将打开数据分析。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/35222487

复制

相似问题

问Hadoop机器配置
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Hadoop机器配置EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Hadoop机器配置
EN