您对Hadoop的磁盘有什么建议?
您建议使用SAS,还是只在SATA上附加磁盘?或者别的什么?每种选择的利弊是什么?
(有关磁盘大小的决定已经作出,每个服务器上将有大约5-6个2TB磁盘)
发布于 2010-12-05 20:19:46
现代Hadoop安装通常适用于每盒几个消费级SATA驱动器。
每个节点的确切磁盘数量在很大程度上取决于应用程序是什么。例如,在雅虎,它们大多是磁盘大小绑定的,因此每个节点都有大量磁盘是有意义的。我见过隐形技术,它可以饱和大量的驱动通道,所以多架带有大量磁盘的后背飞机在那里是有意义的。
如果你刚刚开始,我会推荐6x2TBSATA或12x2TBSATA。有一些很好的超级微型机箱,在一个2U底盘上给你四个节点,前面有12个驱动器,这很好,而且很紧凑,但是每个节点只有2x2TB驱动器可能有点限制。同样的2U形状因子也可以承载1或2个节点,在面板上具有相同的12个驱动器。由于底盘本身的成本,这可能会产生影响。
另一个考虑因素是,许多数据中心受到每平方英尺电力的限制。在Hadoop集群中,功率消耗分为两种方式,一部分用于CPU/内存,另一部分用于保持驱动器的旋转。由于这些限制可能会使您无法用超级紧凑的4x节点盒填充机架,因此您可能更愿意继续使用单个节点盒,以便在您认为合适的情况下,稍后可以添加驱动器。
如果不受磁盘空间的限制,则应考虑整个网络带宽。有更多的NIC的每一个驱动器是好的在这里,所以四盒是不错的。
类似地,您的内存需求是什么?双四核计算机所需的24 get内存最近是相当标准的,但您可能需要更多的内存,或者能够用更少的内存。在相同数量的驱动器中拥有更大的内存总量可能对您的应用程序有好处。
发布于 2010-07-26 06:56:46
那么,由于您使用Hadoop,冗余在应用程序中,因此您不需要考虑每个节点的存储冗余。当然,在存储失败的情况下,应该使用关于如何再次将节点联机的良好例程进行备份。
我认为RAID0中的2xSATA磁盘应该这样做。但是我真的不知道在Hadoop的这种性能方面是否会有什么收获,它可能只会增加复杂性。
发布于 2010-07-26 10:13:16
在这种情况下,我所关心的唯一与性能有关的问题是,SAS磁盘在高负载情况下通常表现得更好,但只有您知道预期的负载。
我想说的是,无论你选择哪一种类型的磁盘,Hadoop在24小时内都会非常密集,你想要一个为24/365操作而设计的磁盘,而许多便宜的磁盘根本无法可靠地做到这一点。
WD的WD2003FYYS受到高度评价。
https://serverfault.com/questions/164006
复制相似问题