首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Apache Druid:计数异常值

Apache Druid:计数异常值
EN

Stack Overflow用户
提问于 2020-04-09 06:43:16
回答 1查看 147关注 0票数 0

我准备了一个Apache的安装,它从Kafka主题中获取数据。它的工作非常顺利和有效。

目前,我正在尝试实现一些查询,并且被困在行计数(按某些字段分组),其中列值是一个异常值。在正常的SQL世界中,我基本上会计算第一个和第三个四分位数(q1和q3),然后使用类似的东西(我只对“右”异常值感兴趣):

SUM(IF(column_value > q3 + 1.5*(q3-q1), 1, 0))

这种方法使用cte和join :我用分组计算cte中的四分位数,然后将它与原始表连接起来。

通过使用groupBy查询,我能够轻松地使用datasketch扩展计算四分位数和异常值阈值,但我不知道如何执行能够执行计数的postAggregation。

理论上,我可以使用在第一个查询中获得的阈值来实现第二个查询。不幸的是,我可以得到数十万个不同的值。这使得这种做法不可行。

你对如何解决这个问题有什么建议吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-04-26 08:43:00

从0.18.0版本开始,Apache支持联接。这解决了问题。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61115365

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档