首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从拼图中删除数据会导致数据“增长”--为什么?

从拼图中删除数据会导致数据“增长”--为什么?
EN

Stack Overflow用户
提问于 2018-05-10 14:52:38
回答 2查看 744关注 0票数 1

最近,我们发现由于ETL中的一个问题,我们的parquets中有重复的行。

我们启动了一个项目来删除重复的行(读取parquets、重复数据删除和写回)。令人惊讶的是,我们注意到这些镶嵌物实际上变大了!

这怎么解释呢?有没有可能,由于数据量较小,某些压缩根本不起作用?

或者,我们是否应该在重复数据删除逻辑中寻找错误(尽管不太可能)?

EN

回答 2

Stack Overflow用户

发布于 2019-03-08 23:03:41

实际上,您不能从地块文件中删除记录。如果您删除了一条记录,它将仍然存在。但是关于哪个记录被‘删除’的附加信息被添加到拼接文件中。

票数 0
EN

Stack Overflow用户

发布于 2019-03-24 02:42:22

这可能与地块文件结构的更改有关。每个行组都有自己的元数据,如果更改行组的数量,文件的大小可能会增加,这可能是问题的答案。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50267200

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档