首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Hadoop实操

    什么是sparklyr

    sparklyr不仅提供了基于Spark的分布式机器学习算法库,还有其他的一些功能。 IBM正在将sparklyr集成到它的DataScience Experience,Cloudera与我们一起确保sparklyr能够满足企业客户的需求,以及H2O则提供了sparklyr和H2OSparkling 如何开始 ---- 从CRAN安装sparklyr install.packages("sparklyr") 还要安装一个本地的Spark版本 library(sparklyr) spark_install IDE集成了Spark和sparklyr,并包括以下工具: 创建和管理Spark连接 浏览Spark DataFrames的表和列 预览Spark DataFrames的前1000行 一旦你安装了sparklyr / https://blog.rstudio.com/2016/09/27/sparklyr-r-interface-for-apache-spark/?

    2.7K90发布于 2018-03-29
  • 来自专栏素质云笔记

    Sparklyr与Docker的推荐系统实战

    相关内容: sparklyr包:实现Spark与R的接口,会用dplyr就能玩Spark 概述 大数据时代,做数据分析的人才辈出,Java、Scala、Go、Julia、Python、JavaScript 在SparkR之后,RStudio公司又推出了全新力作Sparklyr,全面继承dplyr的操作规范。通过Sparklyr和Docker的完美结合,Spark的大数据计算引擎门槛进一步降低! 什么是Sparklyr Sparklyr顾名思义就是 Spark + dplyr。首先,它实现了将dplyr的data frame所有操作规范对Spark计算引擎的完整封装。 推荐系统实战 library(sparklyr) library(dplyr) Sys.setenv(SPARK_HOME="/opt/spark-1.6.0-bin-hadoop2.6") Sys.getenv sparklyr包:实现Spark与R的接口,会用dplyr就能玩Spark Using Spark with Shiny and R Markdown Slide https://channel9.

    95010发布于 2019-05-26
  • 来自专栏Hadoop实操

    如何使用CDSW在CDH中分布式运行所有R代码

    spark_apply的架构 (来自 https://github.com/rstudio/sparklyr/pull/728) 从sparklyr0.6(https://blog.rstudio.com 注意:因为存在环境变量配置的问题:https://github.com/rstudio/sparklyr/issues/915,所以目前只能使用sparklyr的upstreamversion。 最新的sparklyr 0.6.1没有这个功能。 以下是一个分布式执行R代码的例子 https://github.com/chezou/sparklyr-distribute devtools::install_github("rstudio/sparklyr 全部代码请参考: https://github.com/chezou/sparklyr-distribute/blob/master/dist_sparklyr_conda.r config <- spark_config

    2.3K60发布于 2018-03-29
  • 来自专栏Hadoop实操

    如何使用CDSW在CDH集群通过sparklyr提交R的Spark作业

    继上一章介绍如何使用R连接Hive与Impala后,Fayson接下来讲讲如何在CDH集群中提交R的Spark作业,Spark自带了R语言的支持,在此就不做介绍,本文章主要讲述如何使用Rstudio提供的sparklyr 用户操作 3.CDSW版本1.1.1 4.R版本3.4.2 前置条件 1.Spark部署为On Yarn模式 2.CDH集群正常 3.CDSW服务正常 2.命令行提交作业 ---- 1.在R的环境安装sparklyr Foundation for Statistical Computing Platform: x86_64-pc-linux-gnu (64-bit) ... > install.packages("sparklyr is.na(delay)) %>% collect 3.命令行运行代码 [ec2-user@ip-172-31-21-45 ~]$ Rscript sparklyr.R [hf0zgzez3s.jpeg 包,你可以连接到Spark本地实例以及远程Spark集群,本文档主要讲述了R通过调用sparklyr提供的SparkAPI接口与Spark集群建立连接,而未实现在Spark中调用R的函数库或自定义方法。

    2.3K60发布于 2018-03-29
  • 来自专栏Hadoop实操

    如何基于CDSW基础镜像定制Docker

    ap-southeast-1.compute.internal/" options(repos = r) }) [r8mb0tdtoq.jpeg] 3.安装R的依赖包 进入R的控制台安装包,我们这里安装了sparklyr usr/local/lib/R/etc# R R version 3.3.0 (2016-05-03) -- "Supposedly Educational" … > install.packages("sparklyr 4.使用library加载sparklyr和h2o包 [cm5o3n83s1.jpeg] 在没有安装sparklyr和h2o包的情况下,能够正常加载这两个包。 在这个需要定制化的镜像中,本文讲述了如何修改R的私有源地址,但为了方便依旧采用了公网预安装需要的sparklyr和h2o,具体如何制作R的私有源,请参考如何在Redhat中安装R的包及搭建R的私有源。 最后我们在新建Project的时候就可以选择该定制化Docker,已经预安装好了一些R依赖包(sparklyr/h2o),在开发具体的算法工程时,就不用再去连接共有/私有源下载。

    1.9K60发布于 2018-03-29
  • 来自专栏素质云笔记

    R︱Rstudio 1.0版本尝鲜(R notebook、下载链接、sparkR、代码时间测试profile)

    ———————————————————————————————————— 二、sparkR Sparklyr 包是一个新的接口在R与Apache Spark. RStudio现在集成支持Spark和sparklyr包,主要工具如下: 1.创建和管理Spark连接 2.浏览表和Spark数据框的列 3.预览Spark数据框的前1000行 一旦安装好sparklyr

    1.4K50发布于 2019-05-28
  • 来自专栏PPV课数据科学社区

    R知识速查表-值得bia在墙上

    知识 二:高级R知识 三:数据可视化知识 四:数据导入知识 五:数据处理知识 六:数据转换知识 七:字符串处理知识 八:正则表达式知识 九:日期时间处理 十:机器学习知识 十 一:Spark数据科学之sparklyr

    1.9K51发布于 2018-04-18
  • 来自专栏Chris生命科学小站五年归档

    小站搬运|R语言速查手册,这里有完整版~

    www.rstudio.com/resources/cheatsheets/, 站长,整理好在这里一一列举发给大家~首先是站长最喜欢的 ggplot2汉化版(by taoruicn) 还有一个站长不经常用到的Sparklyr

    1K20编辑于 2023-02-28
  • 来自专栏人工智能

    如何在CDSW上运行TensorFlow

    Server2012搭建DNS服务并配置泛域名解析》 《如何在CDH5.13中安装CDSW1.2》 《如何基于CDSW基础镜像定制Docker》 《如何在CDSW中使用R绘制直方图》 《如何使用CDSW在CDH集群通过sparklyr

    1.9K90发布于 2018-02-02
  • 来自专栏人人都是数据分析师

    R语言数据高效处理指南

    主要这本书的内容从基础到进阶、循序渐进,对新手非常友好: (1)循序渐进式教学:本书由基础数据处理(base-r)—简洁高效数据处理(tidyverse生态系统)—高速数据处理(data.table)—分布式数据处理(sparklyr

    85520编辑于 2022-03-21
  • 来自专栏Hadoop实操

    如何在CDSW上运行TensorFlow

    Server2012搭建DNS服务并配置泛域名解析》 《如何在CDH5.13中安装CDSW1.2》 《如何基于CDSW基础镜像定制Docker》 《如何在CDSW中使用R绘制直方图》 《如何使用CDSW在CDH集群通过sparklyr

    1.8K40发布于 2018-03-29
  • 来自专栏Hadoop实操

    如何在CDSW中定制Docker镜像

    》 《如何在Windows Server2012搭建DNS服务并配置泛域名解析》 《如何在CDH5.13中安装CDSW1.2》 《如何在CDSW中使用R绘制直方图》 《如何使用CDSW在CDH集群通过sparklyr Session,测试R的源和预装的Packages是否正常 通过终端使用install.packages命令安装packages正常 [5uh2c3174z.jpeg] 在CDSW界面使用library(sparklyr

    2.6K90发布于 2018-03-29
  • 来自专栏素质云笔记

    R语言︱H2o深度学习的一些R语言实践——H2o包

    碎片︱R语言与深度学习 sparklyr包:实现Spark与R的接口,会用dplyr就能玩Spark ————————————————————————————————————— 本文中介绍的

    3.2K20发布于 2019-05-28
  • 来自专栏大数据文摘

    R语言有多强大?十个你不知道的功能

    R语言的sparklyr包帮助你在单机或者大型的Spark集群上直接完成这项任务。 10.你可以在R语言中以交互的方式学习R R语言的swirl包可以用来生成可交互的R语言学习教程。

    1.3K30发布于 2019-04-26
  • 来自专栏素质云笔记

    R用户的福音︱TensorFlow:TensorFlow的R接口

    语言调用深度学习架构系列引文 R语言︱H2o深度学习的一些R语言实践——H2o包 R用户的福音︱TensorFlow:TensorFlow的R接口 mxnet:结合R与GPU加速深度学习 碎片︱R语言与深度学习 sparklyr

    1K40发布于 2019-05-26
  • 来自专栏北野茶缸子的专栏

    128-R茶话会21-R读取及处理大数据

    其中The sparklyr package 似乎很有意思,也有一本对应的书:Mastering Spark with R (therinspark.com)[6] 当然,私以为如果是本地几百G 大小的数据处理

    67620编辑于 2022-05-19
  • 来自专栏素质云笔记

    R︱并行计算以及提高运算效率的方式(parallel包、clusterExport函数、SupR包简介)

    How-to go parallel in R – basics + tips —————————————————————————————————— 参考文献 1、R语言并行化基础与提高 2、R与并行计算 3、sparklyr 包:实现Spark与R的接口,会用dplyr就能玩Spark 4、Sparklyr与Docker的推荐系统实战 5、R语言︱H2o深度学习的一些R语言实践——H2o包 6、R用户的福音︱TensorFlow

    9.8K10发布于 2019-05-26
  • 来自专栏信数据得永生

    命令行上的数据科学第二版:十、多语言数据科学

    Spark 本身是用 Scala 编写的,但是你也可以从 Python 使用 PySpark 和从 R 使用 SparkR 或 sparklyr 与它交互。 pipe()转换也在 PySpark, SparkR, 和 SparklyR 中提供。 如果您想在管道中使用定制的命令行工具,那么您需要确保它存在于集群中的所有节点上(称为执行器)。

    1.6K20编辑于 2023-03-31
  • 来自专栏医学和生信笔记

    tidymodels之parsnip的强大之处

    ., data = dat, mtry = 10, num.trees = 2000, importance = "impurity" ) # From sparklyr rf

    53640编辑于 2023-09-26
  • 来自专栏生信技能树

    【好书共享】《R for Data Science》的中译版

    data.table更适合处理大数据,更大则需要学Hadoop或者Spark了(sparklyr,rhipe,ddr); 不讲Python和Julia等其他编程语言。

    4.8K32发布于 2018-08-16
领券