文章/答案/技术大牛

发布

问SparkR显示汉字错误
EN

Stack Overflow用户

提问于 2015-12-17 17:41:43

回答 1查看 193关注 0票数 1

我是SparkR的新手，最近我遇到了一个问题，在将包含汉字的文件转换为SparkR后，它将不再正确显示。如下所示：

city=c("北京","上海","杭州")
A <- as.data.frame(city)
A
  city
1 北京
2 上海
3 杭州

然后，基于此，我在SparkR中创建了一个SparkR，并将其收集出来，一切都发生了变化。

collect(createDataFrame(sqlContext,A))
      city
1 \027\xac
2      \nw
3    m\xde

我不知道如何将它们转换回可读的汉字，甚至我也希望能在SparkR中获得可读的字符，这对我来说应该很方便调试。

我使用linux服务器，不确定它是否与此相关。有人知道这件事吗？

下面是sessionInfo()

> sessionInfo()
R version 3.2.2 (2015-08-14)
Platform: x86_64-redhat-linux-gnu (64-bit)
Running under: Red Hat Enterprise Linux Server 7.2 (Maipo)

locale:
 [1] LC_CTYPE=en_US.UTF-8       LC_NUMERIC=C               LC_TIME=en_US.UTF-8        LC_COLLATE=en_US.UTF-8    
 [5] LC_MONETARY=en_US.UTF-8    LC_MESSAGES=en_US.UTF-8    LC_PAPER=en_US.UTF-8       LC_NAME=C                 
 [9] LC_ADDRESS=C               LC_TELEPHONE=C             LC_MEASUREMENT=en_US.UTF-8 LC_IDENTIFICATION=C       

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
[1] SparkR_1.5.2

loaded via a namespace (and not attached):
[1] tools_3.2.2

unicode

apache-spark

sparkr

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-12-18 17:58:32

这是一个已知的问题(一般影响Unicode字符)，已经在1.6中解决了。见火花-8951。您可以修补并重新构建1.5或升级到1.6

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/34340952

复制

相似问题

问SparkR显示汉字错误
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问SparkR显示汉字错误EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问SparkR显示汉字错误
EN