我使用的是spark版本3.1.2,我需要从编码为utf-16le的csv加载数据。
df = spark.read.format("csv")
.option("delimiter", ",")
.option("header", true)
.option("encoding", "utf-16le")
.load(file_path)
df.show(4)spark似乎只能正常读取第一行:Starting from the second row, either garbled characters or null values
但是,python可以通过代码正确读取数据:
with open(file_path, encoding='utf-16le', mode='r') as f:
text = f.read()
print(text)打印结果如下:python read correct
发布于 2021-07-15 11:09:40
从CSV文件源创建Spark dataframe时添加这些选项-
.option('encoding', 'UTF-16')
.option('multiline', 'true')https://stackoverflow.com/questions/68386889
复制相似问题