我是Hadoop和Map的新手,我使用的是Hadoop0.19的旧版本。我有一个程序来读取一个文件/excel,并给我列的内容作为一个列表的地点,地点,名称等。
假设映射器将我的输入文件分成2部分。这些映射器中的每一个都会给出上述实体的列表。
我的问题是:
比如说医生-1:
list of places from mapper1---NY,1 US,2
list of names from mapper1---James 3 ,Ron 8
list of places from mapper-2 --NY 6 UK 5
list of names from mapper 2--Kate 9就像这样。
如何保存每个映射器的输出以及每种类型的实体(如名称或位置)的输出。
还原剂将如何识别和减少只名称,并提出一个最终的列表或唯一的位置,并提出一个与该文件有关的最终列表。
请帮助我,并让我知道任何方法,帮助我用Java。
发布于 2013-10-28 09:30:39
如果这是一个纯映射作业,那么输出文件的数量将与Mappers相同。如果这是一个MapReduce作业,则可以指定减速器的数量。提供一个分区程序,将数据从特定的Mapper发送到特定的减速器。如果您不确定Mappers的数量,则使减速器的数量略高于总数,并且只使用Partitioner的第一个n个减速器。
https://stackoverflow.com/questions/19622170
复制相似问题