最近,我们发现由于ETL中的一个问题,我们的parquets中有重复的行。
我们启动了一个项目来删除重复的行(读取parquets、重复数据删除和写回)。令人惊讶的是,我们注意到这些镶嵌物实际上变大了!
这怎么解释呢?有没有可能,由于数据量较小,某些压缩根本不起作用?
或者,我们是否应该在重复数据删除逻辑中寻找错误(尽管不太可能)?
发布于 2019-03-08 23:03:41
实际上,您不能从地块文件中删除记录。如果您删除了一条记录,它将仍然存在。但是关于哪个记录被‘删除’的附加信息被添加到拼接文件中。
发布于 2019-03-24 02:42:22
这可能与地块文件结构的更改有关。每个行组都有自己的元数据,如果更改行组的数量,文件的大小可能会增加,这可能是问题的答案。
https://stackoverflow.com/questions/50267200
复制相似问题