因为它的柱状格式使得OLAP查询速度更快,但在另一边,数据集是复制的(原始数据+拼板数据)。即使拼花可以压缩,你不认为复制所有数据会花费很多吗?
发布于 2016-01-21 06:34:05
这取决于您的用例。如果您出于各种原因需要数据,例如对暂存数据和查询,则可能需要重复。
尤其是OLAP查询,通常只涉及特定的列。同时,与其他文件相比,编写Parquet文件需要更多的时间。
简而言之,如果您的两个数据都是OLAP查询的目标,您可能需要考虑只使用文件的Parquet版本。
请参阅本文件以供参考。search=2
https://stackoverflow.com/questions/34874434
复制相似问题