文章/答案/技术大牛

发布

社区首页 >问答首页 >如何将流式数据帧写入PostgreSQL？

问如何将流式数据帧写入PostgreSQL？
EN

Stack Overflow用户

提问于 2019-02-19 07:27:39

回答 2查看 3.5K关注 0票数 2

我有一个流式数据帧，我正在尝试将其写入数据库。这里有将rdd或df写入Postgres的文档。但是，我找不到关于如何在结构化流媒体中做到这一点的示例或文档。

我已经阅读了文档https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#foreachbatch，但我不能理解在何处创建jdbc连接以及如何将其写入数据库。

def foreach_batch_function(df, epoch_id):
    # what goes in here?
    pass

view_counts_query = windowed_view_counts.writeStream \
    .outputMode("append") \
    .foreachBatch(foreach_batch_function)
    .option("truncate", "false") \
    .trigger(processingTime="5 seconds") \
    .start() \
    .awaitTermination()

此函数接受常规数据帧并写入postgres表

def postgres_sink(config, data_frame):
    config.read('/src/config/config.ini')
    dbname = config.get('dbauth', 'dbname')
    dbuser = config.get('dbauth', 'user')
    dbpass = config.get('dbauth', 'password')
    dbhost = config.get('dbauth', 'host')
    dbport = config.get('dbauth', 'port')

    url = "jdbc:postgresql://"+dbhost+":"+dbport+"/"+dbname
    properties = {
        "driver": "org.postgresql.Driver",
        "user": dbuser,
        "password": dbpass
    }

    data_frame.write.jdbc(url=url, table="metrics", mode="append",
                          properties=properties)

postgresql

apache-spark

pyspark

spark-structured-streaming

回答 2

Stack Overflow用户

回答已采纳

发布于 2019-02-19 18:47:17

除了你已经拥有的东西之外，这里真的没有什么可以做的。foreachBatch takes a function (DataFrame, Int) => None，所以你所需要的只是一个小适配器，其他一切都应该工作得很好：

def foreach_batch_for_config(config)
    def _(df, epoch_id):
        postgres_sink(config, df)
   return _

view_counts_query = (windowed_view_counts
    .writeStream
    .outputMode("append") 
    .foreachBatch(foreach_batch_for_config(some_config))
    ...,
    .start()
    .awaitTermination())

不过，老实说，传递ConfigParser从一开始就是一个奇怪的想法。您可以调整签名并对其进行适当的初始化

def postgres_sink(data_frame, batch_id):
    config = configparser.ConfigParser()
    ...
    data_frame.write.jdbc(...)

并保持其余部分的原样。这样你就可以直接使用你的函数了：

...
.foreachBatch(postgres_sink)
...

票数 4

Stack Overflow用户

发布于 2020-08-18 21:23:30

Postgres摄取如何使用结构化流传输的示例

class PostgreSqlSink(url: String, user: String, pwd: String) extends org.apache.spark.sql.ForeachWriter[org.apache.spark.sql.Row] {
  val driver = "org.postgresql.Driver"
  var connection: java.sql.Connection = _
  var statement: java.sql.PreparedStatement = _
  val v_sql = "insert INTO Table (A,B,C) values ( ?, ?, ?)"

  def open(partitionId: Long, version: Long): Boolean = {
    Class.forName(driver)
    connection = java.sql.DriverManager.getConnection(url, user, pwd)
    connection.setAutoCommit(false)
    statement = connection.prepareStatement(v_sql)
    true
  }
  def process(value: org.apache.spark.sql.Row): Unit = {
    // ignoring value(0) as this is address
    statement.setString(1, value(1).toString)
    statement.setString(2, value(2).toString)
    statement.setString(3, value(3).toString)
    statement.executeUpdate()        
  }
  def close(errorOrNull: Throwable): Unit = {
    connection.commit()
    connection.close
  }
}

val url = "jdbc:postgresql://XX.XX.XX.XX:5432/postgres"
val user = "abc"
val pw = "abc@123"
val jdbcWriter = new PostgreSqlSink(url,user,pw)
val writeData = pg_df.writeStream 
    .foreach(jdbcWriter)
    .outputMode("Append")
    .trigger(ProcessingTime("30 seconds"))
    .option("checkpointLocation", "s3a://bucket/check")
    .start()

writeData.awaitTermination

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/54756840

复制

相似问题

问如何将流式数据帧写入PostgreSQL？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何将流式数据帧写入PostgreSQL？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何将流式数据帧写入PostgreSQL？
EN