我正在使用Databricks spark-redshift将DataFrames写到Redshift。我有两个DataFrames,它们被附加到两个不同的表中,但我需要它自动发生,也就是说,如果第二个DataFrame写不到它的表,我也需要撤销第一个。有没有办法做到这一点?
发布于 2018-05-03 08:58:57
解决方案是为每个目标表创建一个临时表。要将Spark结果写入数据库:
使用spark- (DELETE FROM staging_table)
redshift-sqlalchemy包)将数据框复制到临时表)清理临时表。一次只能运行Spark应用程序的一个实例,即不能有两个作业同时写入临时表,否则生成的数据将无效。
https://stackoverflow.com/questions/49764102
复制相似问题