文章/答案/技术大牛

发布

问SparkSQL连接问题
EN

Stack Overflow用户

提问于 2018-07-24 00:08:42

回答 1查看 1.1K关注 0票数 1

我有一个火花作业，它将从CSV文件中的数据加载到MySQL数据库中。

一切都很好，但最近我注意到，在插入阶段(300+连接)期间，Spark会打开许多连接。对于每个insert语句，它打开一个新的连接，保持打开，并在某个时候完成提交和关闭连接。是否有一种方法可以在每次插入后或在10K批处理之后进行提交并进行一次提交？

这将不会为每个插入打开一个连接。如果需要处理1K记录，这是很好的，但是当您处理数十亿条记录时，需要大量的资源。

mysql

apache-spark

apache-spark-sql

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-07-24 05:11:37

如果您对dataframe有任何操作--即引起shuffl的dataframe，默认情况下，创建200个分区。导致与数据库的200个连接。

spark.sql.shuffle.partitions --配置用于联接或聚合的数据洗牌时要使用的分区数。-违约: 200

使用以下方法检查dataframe的分区数：

df.rdd.getNumPartitions

重新划分常用列上使用的dataframe：

df.repartition(NUMBER_OF_PARTIOTONS, col("Frequent_used_column"))

还可以设置“批大小”参数以控制每次往返插入的行数。这有助于JDBC驱动程序的性能。默认为1000。

jdbcDF.write
  .format("jdbc")
  .option("url", "jdbc:postgresql:dbserver")
  .option("dbtable", "schema.tablename")
  .option("user", "username")
  .option("password", "password")
  .option("batchsize", 5000)
  .save()

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/51488730

复制

相似问题

问SparkSQL连接问题
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问SparkSQL连接问题EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问SparkSQL连接问题
EN