首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在结构化流应用编程接口(pyspark)中使用redshift作为readStream的JDBC源

在结构化流应用编程接口(pyspark)中使用redshift作为readStream的JDBC源
EN

Stack Overflow用户
提问于 2020-11-18 02:26:40
回答 1查看 68关注 0票数 0

我正在寻找一个包,或者使用redshift作为结构化数据流的源的以前的实现。

代码语言:javascript
复制
spark.readStream \
    .format("io.github.spark_redshift_community.spark.redshift") \
    .option('url', redshift_url) \
    .option('forward_spark_s3_credentials', 'true') \
    .load()

使用下面的格式,您会在读取时出错。例如:

代码语言:javascript
复制
Data source io.github.spark_redshift_community.spark.redshift does not support streamed reading

如果你从Spark3降级并使用:com.databricks.spark.redshift,也会出现同样的错误

有没有已知的变通方法或方法/模式可以用来实现(在pyspark中) redshift作为readStream数据源

EN

回答 1

Stack Overflow用户

发布于 2020-11-18 05:05:16

正如错误所说,这个库不支持对Redshift的流式读写。

可以从项目源at link中确认这一点。该格式不扩展或实现微/连续流读取器和写入器。

要做到这一点,true streaming不会有简单的方法。您可以探索以下途径:

  1. 探索第三方库。搜索JDBC streaming spark。免责声明:我尚未使用这些库,因此不支持这些库。
  2. 在自定义检查点机制上创建微批处理策略。

扩展说明: AFAIK,Spark JDBC接口不支持结构化流。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64881139

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档