文章/答案/技术大牛

发布

问风暴多场分组
EN

Stack Overflow用户

提问于 2015-04-16 17:06:31

回答 1查看 545关注 0票数 1

我要做的是将流按两个字段("remote-client-ip", "request-params")分组，并计算每个组中的元组数。把它们合并成一张地图。以下是我的拓扑结构：

topology.newStream("kafka-spout-stream-1", repeatSpout)
                    .each(new Fields("str"), new URLParser(), new   Fields(fieldNames))
                    .each(new Fields("remote-client-ip", "request-params"), new HTTPParameterExtractor(), new Fields("query-string"))
                    .groupBy(new Fields("remote-client-ip", "query-string"))
                    .aggregate(new Fields("remote-client-ip", "query-string"), new Count(), new Fields("user-word-count"))
                    .groupBy(new Fields("remote-client-ip"))
                    .persistentAggregate(new MemoryMapState.Factory(), new UserQueryStringCombiner(), new Fields("user-word-count-list"));

但是经过调试，我发现数据流在第一次groupBy()时被阻塞了，这是一个多字段分组.在随后的聚合语句中，没有为Count()执行任何操作。

所以我想我误解了一些关于多字段分组和聚合之间的相互作用的概念。

请让我知道我的猜测是对是错。谢谢!

apache-storm

trident

stream-processing

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-04-17 16:15:56

您正在将已经分组的字段与拓扑中的Aggregate()函数进行分组。试试这个：

.aggregate(new Count(), new Fields("user-word-count"))

而不是这样：

.aggregate(new Fields("remote-client-ip", "query-string"), new Count(), new Fields("user-word-count"))

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/29681542

复制

相似问题

问风暴多场分组
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问风暴多场分组EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问风暴多场分组
EN