首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Pyspark读取csv

Pyspark读取csv
EN

Stack Overflow用户
提问于 2018-05-14 17:12:03
回答 2查看 14.6K关注 0票数 1

新的pyspark,并希望读取csv文件到数据帧。看起来不能读。有什么帮助吗?

代码语言:javascript
复制
from pyspark.sql import SQLContext
import pyspark
from pyspark.sql import Row
import csv


sql_c = SQLContext(sc)

rdd = sc.textFile('data.csv').map(lambda line: line.split(","))

rdd.count()

()中的Py4JJavaError回溯(最近一次调用)->1 rdd.count()

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-05-14 18:04:12

如果你使用Spark 2,首选的方式是

代码语言:javascript
复制
df = sql_c.read.csv('data.csv')
票数 2
EN

Stack Overflow用户

发布于 2018-05-14 18:10:35

要独立于spark版本读取csv:

代码语言:javascript
复制
if sc.version.startswith("2"):
     csv_plugin = "csv"
else:
     csv_plugin = "com.databricks.spark.csv"

dataframe = sql_c.read.format(csv_plugin).options(header='true', inferSchema='true').load('data.csv')

如果没有标头,则删除header='true'

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50326780

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档