我准备了一个Apache的安装,它从Kafka主题中获取数据。它的工作非常顺利和有效。
目前,我正在尝试实现一些查询,并且被困在行计数(按某些字段分组),其中列值是一个异常值。在正常的SQL世界中,我基本上会计算第一个和第三个四分位数(q1和q3),然后使用类似的东西(我只对“右”异常值感兴趣):
SUM(IF(column_value > q3 + 1.5*(q3-q1), 1, 0))
这种方法使用cte和join :我用分组计算cte中的四分位数,然后将它与原始表连接起来。
通过使用groupBy查询,我能够轻松地使用datasketch扩展计算四分位数和异常值阈值,但我不知道如何执行能够执行计数的postAggregation。
理论上,我可以使用在第一个查询中获得的阈值来实现第二个查询。不幸的是,我可以得到数十万个不同的值。这使得这种做法不可行。
你对如何解决这个问题有什么建议吗?
发布于 2020-04-26 08:43:00
从0.18.0版本开始,Apache支持联接。这解决了问题。
https://stackoverflow.com/questions/61115365
复制相似问题