sqlContext.read.format('orc').load(hdfspath)
sqlContext.read.format('parquet').load(hdfspath)这个很好用
sqlContext.read.format('sequencefile').load(hdfspath)但是顺序文件格式不是那样工作的。
如何在PySpark中将序列文件读取为数据文件?
发布于 2018-02-02 14:27:47
使用sequenceFile方法来自SparkContext:
from pyspark.sql.functions import input_file_name
df = sc.sequenceFile("/tmp/foo/").toDF()https://stackoverflow.com/questions/48584476
复制相似问题