文章/答案/技术大牛

发布

社区首页 >问答首页 >Hadoop集群需求软件/Hardware

问Hadoop集群需求软件/Hardware
EN

Stack Overflow用户

提问于 2013-03-04 14:50:22

回答 2查看 4.7K关注 0票数 2

嗨，我正在尝试设置hadoop环境。简而言之，我试图解决的问题涉及数十亿个大小为几MB的XML文件，使用HIVE从它们中提取相关信息，并对这些信息做一些分析工作。我知道这在hadoop世界中是一个微不足道的问题，但是如果Hadoop解决方案对我来说比我要处理的文件的大小和数量更好的话，我要处理的文件的几何形式就会增加。

我参考了"Hadoop -明确指南“、"Hadoop在行动中”等各种书籍进行了研究。资源如雅虎和hortonworks的文档。我无法找到建立hadoop环境的硬件/software规范。在我所提到的资源中，我找到了一些标准的解决方案，比如

Namenode/JobTracker (2×1Gb/s以太网、16 GB RAM、4xCPU、100 GB磁盘)
Datanode (2x1GB/s以太网，8GB RAM，4xCPU，多个磁盘，总容量) ( 500+ GB)

但如果有人能给出一些建议，那就太好了。谢谢

hive

hadoop

回答 2

Stack Overflow用户

发布于 2013-03-04 15:39:47

首先，我建议您考虑:您需要更多的处理+一些存储或相反的，并从这个角度选择硬件。你的案子听起来更像是处理而不是存储。

我会为hadoop指定一些不同的标准硬件。

NameNode:高质量的镜像磁盘，16 GB硬盘。

数据节点: 16-24 GB RAM，双四核或双六核CPU，4到6 1-2-3 SATA TB驱动器.

我还会考虑10个GBit选项。我认为，如果不超过集群价格的15% --这是有道理的。15%来自粗略估计，从映射器到减速机的数据传送大约需要15%的工作时间。

在您的情况下，我更愿意牺牲磁盘大小来节省费用，但不愿牺牲CPU/内存/驱动器的数量。

票数 1

Stack Overflow用户

发布于 2013-03-07 06:44:19

“使用hive从它们中提取相关信息”，这有点棘手，因为hive在xml文件方面做得并不好。您将希望用另一种语言(ruby、python、perl等)构建解析脚本，该脚本可以解析xml文件并生成将加载到单元格中的列式输出。然后，您可以使用hive调用带有转换的外部解析脚本，也可以只使用hive来为hive准备数据。然后，这只是一个问题，你需要多快完成工作，以及你需要多少空间来保存你将要拥有的数据量。

您可以在一个系统上用几个文件来构建这个过程来测试它。但是，您确实需要更好地处理总体计划的工作负载，才能适当地扩展集群。最小生产集群大小将是3或4台机器的最低限度，只是为了数据冗余。除此之外，根据需要添加节点以满足您的工作负载需求。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/15204286

复制

相似问题

问Hadoop集群需求软件/Hardware
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Hadoop集群需求软件/HardwareEN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Hadoop集群需求软件/Hardware
EN