首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Spark JDBC UpperBound

Spark JDBC UpperBound
EN

Stack Overflow用户
提问于 2021-07-09 02:52:25
回答 1查看 111关注 0票数 0
代码语言:javascript
复制
           jdbc(String url,
                     String table,
                     String columnName,
                     long lowerBound,
                     long upperBound,
                     int numPartitions,
                     java.util.Properties connectionProperties)

您好,我想使用spark jdbc连接将一些表从Oracle导入hdfs。为了确保并行性,我希望为每个表选择正确的upperBound。我计划将row_number作为我的分区列,并将表的count作为upperBound。有没有更好的方法来选择upperBound?,因为我必须在第一时间连接到表来获得计数。请帮帮忙

EN

回答 1

Stack Overflow用户

发布于 2021-07-09 04:12:29

通常,在Spark JDBC中使用分区的更好方法是:

  • 选择数字或日期类型的列。
  • 将上限设置为列

的最大值,并将下限设置为列的最小值

(如果有偏差,那么有其他方法可以处理,通常这是好的)

显然,上面的代码需要一些查询和处理

  • 保留表的映射:分区列(可能是外部存储)
  • 查询和获取最小、最大

跳过查询的另一个技巧:如果可以找到基于日期的列,则可以使用upper = today's date和lower = 2000's date。但同样,它取决于您的内容。这些值可能不成立。

从你的问题中,我相信你正在寻找一些通用的东西,你可以很容易地应用于所有的表格。我知道这是理想的状态,但这和在DB中使用row_number一样简单,默认情况下,Spark已经这样做了。

这样的函数在技术上可能是可行的,但肯定会比上面的步骤慢,也会给数据库带来额外的负载。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/68307263

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档