我是hadoop的新手,我想更好地了解HDFS中复制的工作原理。
假设我有一个10节点系统(每个节点1 TB ),总容量为10 TB。如果我的复制因子为3,则每个文件有1个原始副本和3个副本。因此,从本质上讲,我的存储空间中只有25%是原始数据。因此,我的10 TB集群实际上只有2.5 TB的原始(未复制)数据。
请告诉我我的思路是否正确。
发布于 2012-03-15 03:13:42
你的想法有点不对劲。复制系数为3表示您的数据总共有3个拷贝。更具体地说,您的文件的每个数据块将有3个副本,因此如果您的文件由10个数据块组成,那么您的10个节点总共将有30个数据块,或者说每个节点大约3个数据块。
您认为10x1TB群集的容量小于10TB的想法是正确的-复制系数为3,实际上它的功能容量约为3.3TB,实际容量略小,因为执行任何处理、存放临时文件等都需要空间。
https://stackoverflow.com/questions/9708298
复制相似问题