首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用Apache Hudi编写的Parquet文件名的每个部分代表什么?

用Apache Hudi编写的Parquet文件名的每个部分代表什么?
EN

Stack Overflow用户
提问于 2021-11-17 19:54:07
回答 1查看 48关注 0票数 0

Apache Hudi写出每个拼图文件,如下所示:

代码语言:javascript
复制
0743209d-51cb-4233-a7cd-5bb712fba1ff-0_21-64-5300_20211117172738.parquet

我正在尝试理解文件的每个部分代表什么。这是我目前的理解,但我希望任何可能知道的人都能确认和澄清。

代码语言:javascript
复制
0743209d-51cb-4233-a7cd-5bb712fba1ff = file group/file name

-0 = file chunk

20211117172738 = timestamp of the batch

我不确定下面的部分代表什么:

代码语言:javascript
复制
21-64-5300=?
EN

回答 1

Stack Overflow用户

发布于 2021-11-18 23:12:36

这是我的发现:

代码语言:javascript
复制
hudi file format -- 0743209d-51cb-4233-a7cd-5bb712fba1ff-0_21-64-5300_20211117172738.parquet
first part is a unique identifier of the file group.
next is write token.
and then the commit time.
Write token is to assist with detecting spark write failures.

public static String makeDataFileName(String instantTime, String writeToken, String fileId, String fileExtension) {
    return String.format("%s_%s_%s%s", fileId, writeToken, instantTime, fileExtension);
  }
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/70010724

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档