文章/答案/技术大牛

发布

问Spark JDBC UpperBound
EN

Stack Overflow用户

提问于 2021-07-09 02:52:25

回答 1查看 111关注 0票数 0

           jdbc(String url,
                     String table,
                     String columnName,
                     long lowerBound,
                     long upperBound,
                     int numPartitions,
                     java.util.Properties connectionProperties)

您好，我想使用spark jdbc连接将一些表从Oracle导入hdfs。为了确保并行性，我希望为每个表选择正确的upperBound。我计划将row_number作为我的分区列，并将表的count作为upperBound。有没有更好的方法来选择upperBound?，因为我必须在第一时间连接到表来获得计数。请帮帮忙

apache-spark

jdbc

spark-jdbc

回答 1

Stack Overflow用户

发布于 2021-07-09 04:12:29

通常，在Spark JDBC中使用分区的更好方法是：

选择数字或日期类型的列。
将上限设置为列

的最大值，并将下限设置为列的最小值

(如果有偏差，那么有其他方法可以处理，通常这是好的)

显然，上面的代码需要一些查询和处理

保留表的映射:分区列(可能是外部存储)
查询和获取最小、最大

跳过查询的另一个技巧:如果可以找到基于日期的列，则可以使用upper = today's date和lower = 2000's date。但同样，它取决于您的内容。这些值可能不成立。

从你的问题中，我相信你正在寻找一些通用的东西，你可以很容易地应用于所有的表格。我知道这是理想的状态，但这和在DB中使用row_number一样简单，默认情况下，Spark已经这样做了。

这样的函数在技术上可能是可行的，但肯定会比上面的步骤慢，也会给数据库带来额外的负载。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/68307263

复制

相似问题

问Spark JDBC UpperBound
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Spark JDBC UpperBoundEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Spark JDBC UpperBound
EN