新的pyspark,并希望读取csv文件到数据帧。看起来不能读。有什么帮助吗?
from pyspark.sql import SQLContext
import pyspark
from pyspark.sql import Row
import csv
sql_c = SQLContext(sc)
rdd = sc.textFile('data.csv').map(lambda line: line.split(","))
rdd.count()()中的Py4JJavaError回溯(最近一次调用)->1 rdd.count()
发布于 2018-05-14 18:04:12
如果你使用Spark 2,首选的方式是
df = sql_c.read.csv('data.csv')发布于 2018-05-14 18:10:35
要独立于spark版本读取csv:
if sc.version.startswith("2"):
csv_plugin = "csv"
else:
csv_plugin = "com.databricks.spark.csv"
dataframe = sql_c.read.format(csv_plugin).options(header='true', inferSchema='true').load('data.csv')如果没有标头,则删除header='true'。
https://stackoverflow.com/questions/50326780
复制相似问题