首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用即时时间读取星火数据源Hudi表

使用即时时间读取星火数据源Hudi表
EN

Stack Overflow用户
提问于 2021-03-09 18:32:55
回答 1查看 509关注 0票数 0

我正在使用Spark.read.format("hudi")阅读Hudi表

想要了解这个选项是如何工作的,hoodie.datasource.read.begin.instanttime是否类似于parquets文件中的hudi的hoodie_commit_ts列?

我是,不能使用hoodie_commit_ts列和下面的方法在相同的hudi路径之上的外部表之间获得相同的计数。

示例代码在这里

beginTime = '20201201194517‘

incremental_read_options ={‘hoodie.userource.query.type’:‘增量’,‘hoodie.datource.read.start.beginTime’:beginTime}

Incremental_DF = spark.read.format("org.apache.hudi")。

选项(**incremental_read_options)。

负载()

EN

回答 1

Stack Overflow用户

发布于 2022-03-11 13:39:12

增量查询和hoodie.datasource.read.begin.instanttime基于元数据表中的_hoodie_commit_time数据。

您要完成的是从beginTime到最新数据插入的增量读取。如果将提交的确切时间传递为beginTime,则查询将不包含该提交。为此,您必须传递这个(beginTime - 1)。

此外,您还可以使用时间点查询,方法是传递选项hoodie.datasource.read.end.instanttime,将查询限制在beginTimeendTime之间的某个时间点(也是排它的)。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/66552781

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档