我正在使用Spark.read.format("hudi")阅读Hudi表
想要了解这个选项是如何工作的,hoodie.datasource.read.begin.instanttime是否类似于parquets文件中的hudi的hoodie_commit_ts列?
我是,不能使用hoodie_commit_ts列和下面的方法在相同的hudi路径之上的外部表之间获得相同的计数。
示例代码在这里
beginTime = '20201201194517‘
incremental_read_options ={‘hoodie.userource.query.type’:‘增量’,‘hoodie.datource.read.start.beginTime’:beginTime}
Incremental_DF = spark.read.format("org.apache.hudi")。
选项(**incremental_read_options)。
负载()
发布于 2022-03-11 13:39:12
增量查询和hoodie.datasource.read.begin.instanttime基于元数据表中的_hoodie_commit_time数据。
您要完成的是从beginTime到最新数据插入的增量读取。如果将提交的确切时间传递为beginTime,则查询将不包含该提交。为此,您必须传递这个(beginTime - 1)。
此外,您还可以使用时间点查询,方法是传递选项hoodie.datasource.read.end.instanttime,将查询限制在beginTime和endTime之间的某个时间点(也是排它的)。
https://stackoverflow.com/questions/66552781
复制相似问题