文章/答案/技术大牛

发布

社区首页 >问答首页 >用Apache Hudi编写的Parquet文件名的每个部分代表什么？

问用Apache Hudi编写的Parquet文件名的每个部分代表什么？
EN

Stack Overflow用户

提问于 2021-11-17 19:54:07

回答 1查看 48关注 0票数 0

Apache Hudi写出每个拼图文件，如下所示：

0743209d-51cb-4233-a7cd-5bb712fba1ff-0_21-64-5300_20211117172738.parquet

我正在尝试理解文件的每个部分代表什么。这是我目前的理解，但我希望任何可能知道的人都能确认和澄清。

0743209d-51cb-4233-a7cd-5bb712fba1ff = file group/file name

-0 = file chunk

20211117172738 = timestamp of the batch

我不确定下面的部分代表什么：

21-64-5300=?

apache-spark

parquet

apache-hudi

回答 1

Stack Overflow用户

发布于 2021-11-18 23:12:36

这是我的发现：

hudi file format -- 0743209d-51cb-4233-a7cd-5bb712fba1ff-0_21-64-5300_20211117172738.parquet
first part is a unique identifier of the file group.
next is write token.
and then the commit time.
Write token is to assist with detecting spark write failures.

public static String makeDataFileName(String instantTime, String writeToken, String fileId, String fileExtension) {
    return String.format("%s_%s_%s%s", fileId, writeToken, instantTime, fileExtension);
  }

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/70010724

复制

相似问题

问用Apache Hudi编写的Parquet文件名的每个部分代表什么？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用Apache Hudi编写的Parquet文件名的每个部分代表什么？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用Apache Hudi编写的Parquet文件名的每个部分代表什么？
EN