文章/答案/技术大牛

发布

社区首页 >问答首页 >Clickhouse优化去重复的性能

问Clickhouse优化去重复的性能
EN

Database Administration用户

提问于 2021-08-19 11:47:14

回答 1查看 1.9K关注 0票数 1

我想尝试了解OPTIMIZE查询在克里克豪斯中的性能。

我计划使用它从MergeTree中删除大容量插入后的重复项，因此我有以下选项：

OPTIMIZE TABLE db.table DEDUPLICATE

或

OPTIMIZE TABLE db.table FINAL DEDUPLICATE

据我所知，第一种状态只会在尚未合并的情况下重复插入，而第二种状态将对整个表进行重复。但是，我关心性能；从对不同大小表的OPTIMIZE TABLE db.table FINAL DEDUPLICATE的脏分析中，我可以看到随着表的变大(0.1s，0.10万行，1s，0.3M行，12s，10M行)，它会变得更糟。但是，我假设OPTIMIZE TABLE db.table DEDUPLICATE是基于插入大小和表大小的，那么应该更具有性能吗？

有人能指出一些关于这些表演的文献吗？

此外，如果我用ReplacingMergeTree替换表，这些问题会消失吗？我想同样的过程会发生在引擎盖下，所以不管是哪种方式都不重要。

clickhouse

回答 1

Database Administration用户

回答已采纳

发布于 2021-08-23 04:40:23

你确定：

吞食管道不能改变以避免/减少重复？
副本很重要吗？它们会影响度量计算还是消耗更多的磁盘存储？

召唤，召唤

OPTIMIZE TABLE db.table FINAL DEDUPLICATE

定期地考虑限制受影响的行(参见分区param)或列(请参见列param)的范围肯定是一种糟糕的方法(它优化了整个表)。

我会考虑使用仅限替换merging引擎，该引擎旨在在“本机”合并过程中减少行数(对于优化情况而言，不是手动的)。

请参阅其他信息：

票数 2

页面原文内容由Database Administration提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://dba.stackexchange.com/questions/298253

复制

相似问题

问Clickhouse优化去重复的性能
EN

回答 1

Database Administration用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Clickhouse优化去重复的性能EN

回答 1

Database Administration用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Clickhouse优化去重复的性能
EN