我想要保存一个火花DataFrame到Excel。
对于csv,我已经这样做了:将csv文件保存在每个节点中,并使用DataBricks spark-csv库将其附加到服务器中。
我不知道在Excel中该怎么做。有人能给我建议和点子吗?
发布于 2017-04-22 06:29:42
您可以在Spark:https://github.com/zuinnote/hadoopoffice中使用HadoopOffice库的数据源
但是,如果要存储的数据量非常大,那么它就没有多大意义,因为Excel本身在处理大型数据文件方面存在问题。
发布于 2020-12-02 02:00:18
%sh pip install XlsxWriter
spark.conf.set("spark.sql.execution.arrow.enabled", "true")
import shutil, sys ,os
import pandas as pd
import xlsxwriter
df = spark.createDataFrame(
[
(1, 'foo'), # create your data here, be consistent in the types.
(2, 'bar'),
(3, 'bar1'),
(4, 'bar2'),
],
['id', 'txt'] # add your columns label here
)
adls_path="/dbfs/mnt/"
pd_df=df.toPandas()
pd_df.to_excel('test.xlsx',engine='xlsxwriter')
shutil.move('test.xlsx', adls_path)https://stackoverflow.com/questions/43339653
复制相似问题