文章/答案/技术大牛

发布

社区首页 >问答首页 >火花DataFrame来自SequenceFile

问火花DataFrame来自SequenceFile
EN

Stack Overflow用户

提问于 2018-02-02 14:10:39

回答 1查看 4.7K关注 0票数 1

sqlContext.read.format('orc').load(hdfspath)
sqlContext.read.format('parquet').load(hdfspath)

这个很好用

sqlContext.read.format('sequencefile').load(hdfspath)

但是顺序文件格式不是那样工作的。

如何在PySpark中将序列文件读取为数据文件？

发布于 2018-02-02 14:27:47

使用sequenceFile方法来自SparkContext：

from pyspark.sql.functions import input_file_name 

df = sc.sequenceFile("/tmp/foo/").toDF()

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/48584476

复制

相似问题

问火花DataFrame来自SequenceFileEN