在阿帕奇的官方网站,这是对这个参数的官方解释。
如果为true,Parquet数据源将合并从所有数据文件中收集的架构,否则将从摘要文件中选择架构,如果没有摘要文件,则从随机数据文件中选择架构。
事实上,我的问题是,摘要文件是什么?
发布于 2018-11-05 14:31:12
Apache使用元数据存储从文件加载数据所需的所有信息,如列元数据、字典、行组等。
该格式旨在将此元数据嵌入文件本身,或存储单独的文件。这就是summary文件。
发布于 2020-10-21 18:33:52
拼花摘要文件包含目录中实际Parquet数据文件中的页脚集合。它可以用于在读取w/o时跳过RowGroups,从每个Parquet文件中获取页脚,如果您有大量的文件和/或Blob存储,这可能会很昂贵。
发布于 2018-12-27 07:37:52
Parquet存储格式是面向列的文件格式,这意味着所有行的特定列的数据将彼此相邻地存储,这将带来两个主要好处--更好的压缩比和更高的查询性能。
https://stackoverflow.com/questions/53150801
复制相似问题