jdbc(String url,
String table,
String columnName,
long lowerBound,
long upperBound,
int numPartitions,
java.util.Properties connectionProperties)您好,我想使用spark jdbc连接将一些表从Oracle导入hdfs。为了确保并行性,我希望为每个表选择正确的upperBound。我计划将row_number作为我的分区列,并将表的count作为upperBound。有没有更好的方法来选择upperBound?,因为我必须在第一时间连接到表来获得计数。请帮帮忙
发布于 2021-07-09 04:12:29
通常,在Spark JDBC中使用分区的更好方法是:
的最大值,并将下限设置为列的最小值
(如果有偏差,那么有其他方法可以处理,通常这是好的)
显然,上面的代码需要一些查询和处理
跳过查询的另一个技巧:如果可以找到基于日期的列,则可以使用upper = today's date和lower = 2000's date。但同样,它取决于您的内容。这些值可能不成立。
从你的问题中,我相信你正在寻找一些通用的东西,你可以很容易地应用于所有的表格。我知道这是理想的状态,但这和在DB中使用row_number一样简单,默认情况下,Spark已经这样做了。
这样的函数在技术上可能是可行的,但肯定会比上面的步骤慢,也会给数据库带来额外的负载。
https://stackoverflow.com/questions/68307263
复制相似问题