我正在使用python2.7运行Spark2.4.4,IDE是py魅力。
输入文件在列中包含编码值,如下所示。
.ʽ|!3-2-704A------------ (dotted line is space)我想得到结果就像
3-2-704 a
我试过下面的代码。
from pyspark.sql import SparkSession
spark = SparkSession \
.builder \
.appName("Python Spark") \
.config("spark.some.config.option", "some-value") \
.getOrCreate()
df = spark.read.csv("Customers_v01.csv",header=True,sep=",");
myres = df.map(lambda x :x[1].decode('utf-8'))
print(myres.collect())错误:
myres = df.map(lambda x :x[1].decode('utf-8'))
File "C:\spark\python\pyspark\sql\dataframe.py", line 1301, in __getattr__
"'%s' object has no attribute '%s'" % (self.__class__.__name__, name))
AttributeError: 'DataFrame' object has no attribute 'map'我不知道是什么导致了这个错误..。帮帮忙吧。还有别的办法吗。
发布于 2019-09-22 19:03:17
地图可在弹性分布式数据集(RDD)上使用
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("Python Spark").getOrCreate()
df = spark.read.csv("Customers_v01.csv", header=True, sep=",", encoding='utf-8')
myres = df.rdd.map(lambda x: x[1].encode().decode('utf-8'))
print(myres.collect())https://stackoverflow.com/questions/58051426
复制相似问题