在hadoop中,数据被分成64mb或128mb的块。假设我有一个大小为70mb的文件。是否将其分为64mb和6mb的两个块。如果是,则第二个块仅占用6mb,该块中的其他空间是浪费的还是被另一个块占用?
发布于 2015-01-22 10:19:24
在hadoop中,块大小可以由写入hdfs的应用程序通过dfs.blocksize属性选择:
http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml
对于是64 no还是128mb没有限制,但当前hadoop版本默认为128mb。
可以在不同的文件上设置不同的块大小。
如果文件的大小小于数据块大小,则不会浪费空间。但是,不建议有太多小文件。有关此问题以及如何解决此问题的更多信息,请访问此处:https://developer.yahoo.com/blogs/hadoop/hadoop-archive-file-compaction-hdfs-461.html
发布于 2016-01-21 15:11:35
不浪费任何空间。如果第二块占用了比剩余56mb空间更多的6mb空间,则将任何空间分配给其他文件。
https://stackoverflow.com/questions/28079802
复制相似问题