我正在寻找一个包,或者使用redshift作为结构化数据流的源的以前的实现。
spark.readStream \
.format("io.github.spark_redshift_community.spark.redshift") \
.option('url', redshift_url) \
.option('forward_spark_s3_credentials', 'true') \
.load()使用下面的格式,您会在读取时出错。例如:
Data source io.github.spark_redshift_community.spark.redshift does not support streamed reading如果你从Spark3降级并使用:com.databricks.spark.redshift,也会出现同样的错误
有没有已知的变通方法或方法/模式可以用来实现(在pyspark中) redshift作为readStream数据源
发布于 2020-11-18 05:05:16
正如错误所说,这个库不支持对Redshift的流式读写。
可以从项目源at link中确认这一点。该格式不扩展或实现微/连续流读取器和写入器。
要做到这一点,true streaming不会有简单的方法。您可以探索以下途径:
JDBC streaming spark。免责声明:我尚未使用这些库,因此不支持这些库。扩展说明: AFAIK,Spark JDBC接口不支持结构化流。
https://stackoverflow.com/questions/64881139
复制相似问题