首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >重新索引Apache Druid中的多个数据

重新索引Apache Druid中的多个数据
EN

Stack Overflow用户
提问于 2019-11-03 17:17:56
回答 1查看 891关注 0票数 2

我想从德鲁伊那里得到最后一小时和一天的聚合结果。我使用的大多数查询都包括临时查询。我想问两个问题;

1-是一个很好的主意,在没有汇总的情况下吞食所有原始数据?如果没有汇总,我可以用多次重新索引数据吗?例如,一个任务重新索引数据以查找每个小时的唯一用户计数,另一个任务重新索引相同的数据以查找每10分钟的总计数。

2-如果启用了汇总以找到一些基本的总结,这将阻止从原始数据中获取信息(因为它是被总结的)。当我想重新索引数据时,可能找不到一些有用的信息。是在流模式下启用汇总的良好实践吗?

EN

回答 1

Stack Overflow用户

发布于 2019-11-15 12:43:35

  1. 是否启用卷起取决于数据大小。通常,我们将数据保存在德鲁伊之外,以便在不同的数据源中重新播放和重新索引。如果您有一个合理的数据大小,您可以将您的段粒度保持在小时/日/周/月,确保每个段不超过理想的段大小(推荐的500 MB )。并在索引时对none进行查询粒度,因此您可以在查询时进行此唯一的总计数聚合。

实际上,您可以在索引时将查询粒度设置为10分钟,它仍然可以在1小时内为您提供uniques,并在1小时内收到总计数。

此外,如果您所要求的是多个数据源中的数据,则可以对其进行索引。如果要为同一数据源重新编制数据索引,它将创建重复的结果并使结果倾斜。

  • 取决于您的用例。汇总将帮助您在德鲁伊集群中获得更好的性能和空间优化。理想情况下,我建议将存档的数据以可重放的格式分开,以便重用.
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58682679

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档