首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用带有readBin的箭头包修复SparkR ()中的错误?

如何使用带有readBin的箭头包修复SparkR ()中的错误?
EN

Stack Overflow用户
提问于 2021-06-18 08:45:25
回答 1查看 286关注 0票数 0

我正在研究SparkR,并希望在Databricks中使用箭头包加快处理速度。但是,当我在SparkR::dapply或gapply之后执行collect(df)时,我会得到以下错误:

代码语言:javascript
复制
Error in readBin(con, raw(), as.integer(dataLen), endian = "big") : Error in readBin(con, raw(), as.integer(dataLen), endian = "big") : 
  invalid 'n' argument

例如,我正在使用500万的SalesRecords数据。守则如下:

代码语言:javascript
复制
library(SparkR)

SparkR::sparkR.session(sparkConfig = list(spark.sql.execution.arrow.sparkr.enabled = "true"))

library(arrow)

arrow::arrow_available()

dfSchema <- structType(structField("Region", "string")
                       ,structField("Country", "string")
                       ,structField("ItemType", "string")
                       ,structField("SalesChannel", "string")
                       ,structField("OrderPriority", "string")
                       ,structField("OrderDate", "string")
                       ,structField("OrderID", "int")
                       ,structField("ShipDate", "string")
                       ,structField("UnitsSold", "int")
                       ,structField("UnitPrice", "int")
                       ,structField("UnitCost", "int")
                       ,structField("TotalRevenue", "int")
                       ,structField("TotalCost", "int")
                       ,structField("TotalProfit", "int")
                      )
spark_df <- SparkR::read.df(path="/FileStore/tables/SalesRecords_5m.csv", source="csv", schema=dfSchema)

# Apply an R native function to each partition.
returnSchema <-  structType(structField("UnitsSold", "int"))

df <- SparkR::dapply(spark_df
                    , function(rdf) { data.frame(rdf$UnitsSold + 1) }
                    , returnSchema
                   )

collect(df)

当我通过将spark.sql.execution.arrow.sparkr.enabled设置为false关闭箭头时,整个代码运行时不会出现任何错误。因此,箭头无法工作,如何修复此错误?

注:I正在使用以下版本: Spark 3.1.1、箭头4.0.1、RVersion4.0.4

sessionInfo()的输出是:

代码语言:javascript
复制
R version 4.0.4 (2021-02-15)
Platform: x86_64-pc-linux-gnu (64-bit)
Running under: Ubuntu 18.04.5 LTS

Matrix products: default
BLAS:   /usr/lib/x86_64-linux-gnu/blas/libblas.so.3.7.1
LAPACK: /usr/lib/x86_64-linux-gnu/lapack/liblapack.so.3.7.1

locale:
 [1] LC_CTYPE=C.UTF-8       LC_NUMERIC=C           LC_TIME=C.UTF-8       
 [4] LC_COLLATE=C.UTF-8     LC_MONETARY=C.UTF-8    LC_MESSAGES=C.UTF-8   
 [7] LC_PAPER=C.UTF-8       LC_NAME=C              LC_ADDRESS=C          
[10] LC_TELEPHONE=C         LC_MEASUREMENT=C.UTF-8 LC_IDENTIFICATION=C   

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
[1] SparkR_3.1.1

loaded via a namespace (and not attached):
 [1] Rcpp_1.0.5         magrittr_2.0.1     tidyselect_1.1.0   bit_4.0.4         
 [5] xtable_1.8-4       R6_2.5.0           rlang_0.4.9        fastmap_1.0.1     
 [9] hwriter_1.3.2      tools_4.0.4        arrow_4.0.1        htmltools_0.5.0   
[13] bit64_4.0.5        digest_0.6.27      assertthat_0.2.1   Rserve_1.8-7      
[17] shiny_1.5.0        purrr_0.3.4        later_1.1.0.1      hwriterPlus_1.0-3 
[21] vctrs_0.3.5        promises_1.1.1     glue_1.4.2         mime_0.9          
[25] compiler_4.0.4     TeachingDemos_2.10 httpuv_1.5.4 
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-06-18 09:55:41

我可以给你提供一个部分的解决办法,虽然我不完全确定确切的原因。

这里发生了一些与变量类型不匹配的事情--您正在尝试创建一个类型为"int“的字段,但是那里的代码实际上创建了一个类型为"double”的字段。

如果你在你所增加的价值上加了一个“L”,这有帮助吗?

代码语言:javascript
复制
df <- SparkR::dapply(spark_df
                    , function(rdf) { data.frame(rdf$UnitsSold + 1L) }
                    , returnSchema
                   )
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/68032084

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档