上篇中我们介绍了rhdfs插件,R语言通过它可以加载和操作hdfs,这里为大家继续介绍Rhadoop的另一个插件rmr2,它能够在计算过程调用MapReduce,来看下如何使用: 1 安装 下载安装文件 2 测试 测试方法很简单,由于mapreduce也需要操作hdfs 因此rmr2封装了新的一套函数 from.dfs() 和 to.dfs() 来读取写入hdfs,这里的操作函数对写入hdfs的数据进行了压缩
Rhadoop包括rhdfs、rmr2、rhbase等R语言插件,rhdfs插件可以加载hdfs文件系统,rmr2可以使用mapreduce做并行计算。
RevolutionAnalytics/rhdfs/master/build/rhdfs_1.0.8.tar.gz $wget https://raw.githubusercontent.com/RevolutionAnalytics/rmr2 install.packages(pkgs="rmr2_3.1.0.tar.gz") 3.启动hadoop后测试安装是否成功 >library(rhdfs) >hdfs.init() >hdfs.ls("/") >library(rmr2
安装完RHadoop,当然要进行一下例子测试,看了网上相关的关于wordcount的例子,还是有不少,有些还比较模糊,于是就把自己下载的代码与编译结果记录一下: library(rmr2) library
2021.09.1-372-x86_64.rpm 12.6 RHadoop中解决单词计数问题 # 准备数据 https://gitee.com/zd200572/ml_R_cookbook.git library(rmr2 12.8 测试和调试rmr2程序 rmr.options(backend='local') b.time <- proc.time() small.ints <- to.dfs(1:100000) result 12.10 使用plyrmr处理数据 rmr2包写mapreduce程序已经相比原生简单多了,但相对一个非程序员难度依然很大,plyrmr包是MapReduce的较高抽象。 MASS) data(cats) X <- matrix(cats$Bwt) Y <- matrix(cats$Hwt) model <- lm(Y ~ X) summary(model) library(rmr2
Rserve、RSclient、FastRWeb、Websocket),数据库访问包(RMySQL、rmongodb、rredis、RCassandra、RHive)、Hadoop操作包(rhdfs、rmr2