我正在尝试使用以下代码将我的熊猫数据转换为激发2.0数据格式:
spark_df= sqlContext.createDataFrame(pandas_df)我有几个问题:
发布于 2017-07-12 18:30:12
为什么你要从这么大的熊猫DF中创建一个火花DF呢?这没有任何意义。这是一个巨大的开销,因为你把你的数据装入内存通过熊猫DF,然后再在星火。不确定您的设置与内存、集群大小等类似,但如果您在本地计算机上,这会耗尽您的内存。
我的建议是,因为熊猫DF有一种关系格式,我猜您是从csv文件(或任何其他类似tsv等)创建DataFrame的。更好的解决方案是通过DataFrame将其直接加载到DataFrameReader中。您也可以传递模式,然后加载将更快。
https://stackoverflow.com/questions/45060397
复制相似问题