我遇到了一个问题,使用JDBC驱动程序将数十万条记录插入MSSQL数据库需要大约一个小时。
查看配置文件,我注意到Spark (或者很可能是JDBC驱动程序)正在为我的DataFrame中的每一行生成一个单独的插入,这当然是缓慢的。
我查看了JDBC配置,但没有找到启用批处理插入的方法。
是否有一种方法来配置Spark应用程序,以便它使用批量插入或生成大批处理来插入数据?
发布于 2019-02-25 05:19:08
微软发布了特殊的Azure SQL数据库的火花连接器,以提供同样适用于普通MsSql数据库的此功能。您可以在其GitHub页https://github.com/Azure/azure-sqldb-spark#bulk-copy-to-azure-sql-database-or-sql-server上看到大容量插入示例。
https://stackoverflow.com/questions/46647540
复制相似问题