我使用s3a从数据库读取数据帧并写入.parquet(s3a://bucketname//folder)。它适用于<100列的数据帧,但crashes.exits spark-shell适用于>100列的数据帧。如果是列限制/版本问题/内存问题,是否找不到任何材料?希望能从经验丰富的社区中找到一些方向。
PS。下面的代码可以在我的本地机器上的Eclipse Windows上运行,但在linux实例上会出现问题
spark版本- 2.4.0-cdh6.3.3 scala版本- 2.11.12 Java版本- 1.8
def execute(sql:String) = {//defined connection }
val df_sql = ("select * from sampletable")
val df_exe = execute(df_sql)
df_exe.write.parquet(s3a://bucketname/folder)发布于 2021-05-31 10:22:03
找到了答案,以防有人问到这个问题。当调用spark-submit时,增加driver-memory以适应正在写入的文件的1个分区。我用了16克
https://stackoverflow.com/questions/67622502
复制相似问题