文章/答案/技术大牛

发布

社区首页 >问答首页 >在结构化流应用编程接口(pyspark)中使用redshift作为readStream的JDBC源

问在结构化流应用编程接口(pyspark)中使用redshift作为readStream的JDBC源
EN

Stack Overflow用户

提问于 2020-11-18 02:26:40

回答 1查看 68关注 0票数 0

我正在寻找一个包，或者使用redshift作为结构化数据流的源的以前的实现。

spark.readStream \
    .format("io.github.spark_redshift_community.spark.redshift") \
    .option('url', redshift_url) \
    .option('forward_spark_s3_credentials', 'true') \
    .load()

使用下面的格式，您会在读取时出错。例如：

Data source io.github.spark_redshift_community.spark.redshift does not support streamed reading

如果你从Spark3降级并使用：com.databricks.spark.redshift，也会出现同样的错误

有没有已知的变通方法或方法/模式可以用来实现(在pyspark中) redshift作为readStream数据源

spark-structured-streaming

apache-spark

amazon-redshift

回答 1

Stack Overflow用户

发布于 2020-11-18 05:05:16

正如错误所说，这个库不支持对Redshift的流式读写。

可以从项目源at link中确认这一点。该格式不扩展或实现微/连续流读取器和写入器。

要做到这一点，true streaming不会有简单的方法。您可以探索以下途径：

探索第三方库。搜索JDBC streaming spark。免责声明:我尚未使用这些库，因此不支持这些库。
在自定义检查点机制上创建微批处理策略。

扩展说明： AFAIK，Spark JDBC接口不支持结构化流。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/64881139

复制

相似问题

问在结构化流应用编程接口(pyspark)中使用redshift作为readStream的JDBC源
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在结构化流应用编程接口(pyspark)中使用redshift作为readStream的JDBC源EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在结构化流应用编程接口(pyspark)中使用redshift作为readStream的JDBC源
EN