首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >什么是Parquet摘要文件?

什么是Parquet摘要文件?
EN

Stack Overflow用户
提问于 2018-11-05 08:32:04
回答 3查看 1.2K关注 0票数 3

在阿帕奇的官方网站,这是对这个参数的官方解释。

如果为true,Parquet数据源将合并从所有数据文件中收集的架构,否则将从摘要文件中选择架构,如果没有摘要文件,则从随机数据文件中选择架构。

事实上,我的问题是,摘要文件是什么?

EN

回答 3

Stack Overflow用户

发布于 2018-11-05 14:31:12

Apache使用元数据存储从文件加载数据所需的所有信息,如列元数据、字典、行组等。

该格式旨在将此元数据嵌入文件本身,或存储单独的文件。这就是summary文件。

票数 1
EN

Stack Overflow用户

发布于 2020-10-21 18:33:52

拼花摘要文件包含目录中实际Parquet数据文件中的页脚集合。它可以用于在读取w/o时跳过RowGroups,从每个Parquet文件中获取页脚,如果您有大量的文件和/或Blob存储,这可能会很昂贵。

https://github.com/apache/parquet-mr/blob/65b95fb72be8f5a8a193a6f7bc4560fdcd742fc7/parquet-hadoop/src/main/java/org/apache/parquet/hadoop/ParquetFileReader.java#L407

票数 0
EN

Stack Overflow用户

发布于 2018-12-27 07:37:52

Parquet存储格式是面向列的文件格式,这意味着所有行的特定列的数据将彼此相邻地存储,这将带来两个主要好处--更好的压缩比和更高的查询性能。

票数 -2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/53150801

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档