首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >窗口分组聚集中的水印

窗口分组聚集中的水印
EN

Stack Overflow用户
提问于 2017-10-11 23:02:41
回答 2查看 99关注 0票数 1

我正在读取Spark Streaming Programming Guide Documentation,并查询基于事件时间的数据处理。我已经附加了一个文档链接的屏幕截图,显示数据甚至在事件发生之前就被处理了。12:21事件在12:10 - 12:20的窗口中处理,图片是对的还是错的?

EN

回答 2

Stack Overflow用户

发布于 2020-12-14 18:53:20

12:13有一个迟到的活动,也是猫头鹰。我认为这是在12:10-12:20的时间范围内显示的,在12:20进行的剪辑。

我期望的12:21猫头鹰事件应该出现在12:20 - 12:30或12:15 - 12:25的时间范围内。但是,这些不会显示在图表中

票数 0
EN

Stack Overflow用户

发布于 2020-12-15 16:24:45

当您使用实时数据时,可能会出现延迟到达数据的情况,并且必须对较早的窗口数据执行此数据的计算。在这种情况下,较早窗口数据的结果存储在内存中,然后与较晚到达的数据聚合。但这可能导致更高的内存消耗,因为历史数据被存储在内存中,直到错过的数据到达,这可能导致内存积累。在这些场景中,Spark streaming具有水印的特性,当延迟到达的数据超过阈值时,就会将其丢弃。

在某些情况下,业务结果可能会因为丢弃这些值而不匹配。为了避免这种类型的问题,除了应用水印功能,还需要实现自定义功能来检查数据的时间戳,然后将其存储在HDFS或任何云原生对象存储系统中,以便对数据进行批量计算。这种实现导致了复杂性。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/46691640

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档