首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >RHadoop映射函数未得到正确结果

RHadoop映射函数未得到正确结果
EN

Stack Overflow用户
提问于 2015-10-13 06:01:12
回答 1查看 51关注 0票数 0

以下是我的文本文件内容:

代码语言:javascript
复制
name ,      tag/tags ,               location,           id
xyz,         abc;nhj;xygf;xyz;ajsd,  jhdwegyugagdwg,     T1
xasdiaos,    abcd,                   jhdwegyugagdwg0 ,   T3
xyzasihd,   jsdh;sdgwyi,             jhdwegyugagdasodpg, T2
xyzasihd,    jsdh;jadh;ahsg;sdgwyi,  jhdwegyugagdasodpg, T4

我想输出id和标签的总数。期望的输出如下。

代码语言:javascript
复制
T1 , 5
T3 , 1
T2 , 2
T4 , 4

我已经为mapreduce编写了下面的代码。

代码语言:javascript
复制
library(rmr2)

query1= function(input, output = "/user/mtech/15CS60R13/OutputP2"){

  q1.map=
    function(., lines){
      print(lines)

      keyval(unlist(strsplit(lines,split=","))[4],
             length(unlist(strsplit(unlist(strsplit(lines,split=","))[2],split=";"))))
    }

  mapreduce(
    input = input ,
    output = output,
    input.format = "text",
    map = q1.map,
  )
}

query1("/user/xyz/file.txt")

results <- from.dfs ("/user/mtech/15CS60R13/Output")

我得到的结果如下。

代码语言:javascript
复制
print(results)
$key
[1] "T4" "T1"

$val
[1] 4 5

尽管当我尝试在下面更改map函数时,

代码语言:javascript
复制
keyval(lines,1)

我得到了所有的四行。请解释为什么我只有2行当我放strsplit

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-10-14 14:12:36

这是地图上的错误:

代码语言:javascript
复制
q1.map=
function(., lines){
 for(line in lines){
  keyval(unlist(strsplit(line,split=","))[4],
         length(unlist(strsplit(unlist(strsplit(line,split=","))[2],split=";"))))
}
}

谢谢!

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/33095204

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档