首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Apache如何处理扭曲的数据?

Apache如何处理扭曲的数据?
EN

Stack Overflow用户
提问于 2016-01-08 16:39:29
回答 1查看 1.8K关注 0票数 6

例如,我有一大串字,想数每一个字。问题是这些词是不正确的。这意味着有些词的频率会很高,但大多数其他单词的频率很低。在风暴中,我们可以用以下方法来解决这个问题。首先在流上做洗牌分组,在每个节点中在窗口时间内计数本地单词,最后更新计数到累积结果。从我的另一个question中,我知道Flink只支持键控流上的窗口,否则窗口操作将不是并行的。

我的问题是,是否有一个好的方法来解决这种扭曲的数据问题在Flink?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-01-11 09:41:11

DataStream API目前本机不支持预聚合.原则上,可以为事件时窗口添加类似组合器的特性.海事组织,这将是一个非常有价值的补充,但尚未完成。

但是,您可以自己实现这个特性。DataStream API提供了与Storm类似的低级操作符接口.该接口称为OneInputStreamOperator。此运算符类型为您提供完全控制。实际上,内置操作符(例如窗口操作符)也是基于这个类的.

OneInputStreamOperator可以应用如下:

代码语言:javascript
复制
DataStream<Tuple2<String,Integer> inStream = ...
DataStream<String> outStream = inStream
  .transform("my op", BasicTypeInfo.STRING_TYPE_INFO, new MyOISO());
票数 6
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/34681887

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档