文章/答案/技术大牛

发布

社区首页 >问答首页 >MapReduce:流映射器如何知道哪些文件数据来自哪个文件？

问MapReduce:流映射器如何知道哪些文件数据来自哪个文件？
EN

Stack Overflow用户

提问于 2013-10-09 21:53:17

回答 1查看 85关注 0票数 0

我正在学习MapReduce。作为测试，我尝试设置一个“join”算法，该算法接收来自两个文件(其中包含两个要连接的数据集)的数据。

为此，映射程序需要知道每一行都来自哪个文件；这样，它就可以适当地标记它，这样还原器就不会(例如)将一个数据集中的元素连接到同一个集合中的其他元素。

更复杂的是，我使用Hadoop流，映射器和还原器都是用Python编写的；我理解InputFormat，但是Hadoop RecordReader和RecordReader类的文档非常模糊，我不知道如何进行流兼容的拆分，以便将某种类型的文件标识符与数据捆绑在一起。

谁能解释如何以我的Python程序能够理解的方式设置这个输入处理？

mapreduce

streaming

java

python

input

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-11-18 20:08:52

我找到了答案，顺便说一句-在Python中，它是：

import os
context = os.environ["map_input_file"]

然后，“context”具有输入文件名。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/19283481

复制

相似问题

问MapReduce:流映射器如何知道哪些文件数据来自哪个文件？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问MapReduce:流映射器如何知道哪些文件数据来自哪个文件？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问MapReduce:流映射器如何知道哪些文件数据来自哪个文件？
EN