文章/答案/技术大牛

发布

问Pyspark读取csv
EN

Stack Overflow用户

提问于 2018-05-14 17:12:03

回答 2查看 14.6K关注 0票数 1

新的pyspark，并希望读取csv文件到数据帧。看起来不能读。有什么帮助吗？

from pyspark.sql import SQLContext
import pyspark
from pyspark.sql import Row
import csv


sql_c = SQLContext(sc)

rdd = sc.textFile('data.csv').map(lambda line: line.split(","))

rdd.count()

()中的Py4JJavaError回溯(最近一次调用)->1 rdd.count()

apache-spark

pyspark

python

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-05-14 18:04:12

如果你使用Spark 2，首选的方式是

df = sql_c.read.csv('data.csv')

票数 2

Stack Overflow用户

发布于 2018-05-14 18:10:35

要独立于spark版本读取csv：

if sc.version.startswith("2"):
     csv_plugin = "csv"
else:
     csv_plugin = "com.databricks.spark.csv"

dataframe = sql_c.read.format(csv_plugin).options(header='true', inferSchema='true').load('data.csv')

如果没有标头，则删除header='true'。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/50326780

复制

相似问题

问Pyspark读取csv
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Pyspark读取csvEN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Pyspark读取csv
EN