首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >通过sparklyr将R连接到Spark

通过sparklyr将R连接到Spark
EN

Stack Overflow用户
提问于 2016-07-21 07:08:00
回答 4查看 2.6K关注 0票数 0

我正在尝试按照来自RStudio:http://spark.rstudio.com/sparklyr教程将R连接到Spark

但是,我收到了一个奇怪的错误消息,如下所示。有人知道如何解决这个问题吗?我曾尝试将C:\Windows\system32路径添加到系统变量path中,但没有成功。谢谢你的帮助。

代码语言:javascript
复制
> library(sparklyr)
> sc <- spark_connect(master = "local")
Error in sparkapi::start_shell(master = master, spark_home = spark_home,  : 
  Failed to launch Spark shell. Ports file does not exist.
    Path: C:\Users\Gaud\AppData\Local\rstudio\spark\Cache\spark-1.6.1-bin-hadoop2.6\bin\spark-submit.cmd
    Parameters: --jars, "C:\Users\Gaud\Documents\R\win-library\3.3\sparklyr\java\sparklyr.jar", --packages, "com.databricks:spark-csv_2.11:1.3.0","com.amazonaws:aws-java-sdk-pom:1.10.34", sparkr-shell, C:\Users\Gaud\AppData\Local\Temp\RtmpC8MAa8\file322c47ee2a28.out
EN

回答 4

Stack Overflow用户

发布于 2016-10-06 20:34:07

最近我也遇到了同样的问题。这个bug在RStudio GitHub sparklyr pages上被讨论过。

你能提供你的sessionInfo()结果吗?它的输出显示了正在使用的软件包版本和操作系统。

对我有帮助的两个要点:

使用spark_install()

  • Install开发工具安装
  • 。使用devtools::install_github("rstudio/sparklyr")

的sparklyr版本

检查sparklyr包的版本。在我的例子中,这个问题只有在更新到sparklyr_0.4.11版本后才会消失。

票数 2
EN

Stack Overflow用户

发布于 2016-11-03 12:57:26

从github存储库安装最新的sparklyr

如果你的服务器上没有互联网,安装sparklyr的步骤。

  • Install R packages devtools和git2r
  • 从git

下载主压缩文件

  • 将其解压缩到windows路径上
  • 创建源文件: source <- devtools:::source_pkg("windows路径/主目录devtools
票数 1
EN

Stack Overflow用户

发布于 2016-07-21 09:32:56

首先,您需要确保您拥有最新版本的RStudio,如果您正在使用最新版本的RStudio (在此处关闭RStudio后下载并安装):https://www.rstudio.com/products/rstudio/download/preview/

代码语言:javascript
复制
    library(DBI)
    library(lazyeval)
    library(dplyr)
    library(devtools)
    # install_github("rstudio/sparkapi")
    library(sparkapi)
    # install_github("rstudio/sparklyr")
    library(sparklyr)
    library(yaml)
    library(nycflights13)

    # Note: Only perform Spark once
    spark_install(version = "1.6.1")

    # Connect to Spark through connection
    sc <- spark_connect(master = "local")
    iris_tbl <- copy_to(sc, iris, "iris", overwrite = TRUE)
    flights_tbl <- copy_to(sc, nycflights13::flights, "flights", overwrite = TRUE)
    class(flights_tbl)


 flights_preview <- DBI::dbGetQuery(sc, "SELECT * FROM flights LIMIT 10")
    flights_preview

将在Windows 10中输出以下内容:

代码语言:javascript
复制
# year month day dep_time sched_dep_time dep_delay arr_time sched_arr_time arr_delay carrier flight tailnum origin
# 1  2013     1   1      517            515         2      830            819        11      UA   1545  N14228    EWR
# 2  2013     1   1      533            529         4      850            830        20      UA   1714  N24211    LGA
# 3  2013     1   1      542            540         2      923            850        33      AA   1141  N619AA    JFK
# 4  2013     1   1      544            545        -1     1004           1022       -18      B6    725  N804JB    JFK
# 5  2013     1   1      554            600        -6      812            837       -25      DL    461  N668DN    LGA
# 6  2013     1   1      554            558        -4      740            728        12      UA   1696  N39463    EWR
# 7  2013     1   1      555            600        -5      913            854        19      B6    507  N516JB    EWR
# 8  2013     1   1      557            600        -3      709            723       -14      EV   5708  N829AS    LGA
# 9  2013     1   1      557            600        -3      838            846        -8      B6     79  N593JB    JFK
# 10 2013     1   1      558            600        -2      753            745         8      AA    301  N3ALAA    LGA
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/38492303

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档