我想了解属性mapreduce.job.split.metainfo.maxsize及其影响。描述说:
拆分metainfo文件的最大允许大小。JobTracker不会尝试读取大于配置值的拆分metainfo文件。如果设置为-1没有限制。
“拆分metainfo文件”包含哪些内容?我已经读过,它将存储有关输入分割的元信息。输入拆分是对块的逻辑包装,以创建完整的记录,对吗?拆分的元信息是否包含可能在多个块中可用的实际记录的块地址?
发布于 2016-03-15 14:22:48
当hadoop作业提交时,整个输入文件被分割成“splits”,并将它们与其元数据存储到每个节点。从那时起,分片元数据的计数就有了限制--属性“mapreduce.jobtracker.split.metainfo.maxsize”决定了这个限制,其默认值为1000万。您可以通过增加此值来绕过此限制,或者通过将其值设置为-1来解锁该限制。
https://stackoverflow.com/questions/36013712
复制相似问题