问重新索引Apache Druid中的多个数据
EN

Stack Overflow用户

提问于 2019-11-03 17:17:56

回答 1查看 891关注 0票数 2

我想从德鲁伊那里得到最后一小时和一天的聚合结果。我使用的大多数查询都包括临时查询。我想问两个问题；

1-是一个很好的主意，在没有汇总的情况下吞食所有原始数据？如果没有汇总，我可以用多次重新索引数据吗？例如，一个任务重新索引数据以查找每个小时的唯一用户计数，另一个任务重新索引相同的数据以查找每10分钟的总计数。

2-如果启用了汇总以找到一些基本的总结，这将阻止从原始数据中获取信息(因为它是被总结的)。当我想重新索引数据时，可能找不到一些有用的信息。是在流模式下启用汇总的良好实践吗？

发布于 2019-11-15 12:43:35

是否启用卷起取决于数据大小。通常，我们将数据保存在德鲁伊之外，以便在不同的数据源中重新播放和重新索引。如果您有一个合理的数据大小，您可以将您的段粒度保持在小时/日/周/月，确保每个段不超过理想的段大小(推荐的500 MB )。并在索引时对none进行查询粒度，因此您可以在查询时进行此唯一的总计数聚合。

实际上，您可以在索引时将查询粒度设置为10分钟，它仍然可以在1小时内为您提供uniques，并在1小时内收到总计数。

此外，如果您所要求的是多个数据源中的数据，则可以对其进行索引。如果要为同一数据源重新编制数据索引，它将创建重复的结果并使结果倾斜。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/58682679

复制

相似问题

问重新索引Apache Druid中的多个数据EN