首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在很短的持续时间内处理突发的流数据

如何在很短的持续时间内处理突发的流数据
EN

Stack Overflow用户
提问于 2020-10-14 17:13:18
回答 1查看 51关注 0票数 0

我们想开发一个系统,可以处理突发的流数据,1M事件/秒,持续1分钟,然后负载将显着降低到100/秒。

这些1分钟的数据突发每天可能发生5-10次,我们需要聚合(简单分组)数据并将其转储到另一个服务。这些聚合需要每隔200ms进行一次。

在这里,最小成本和最大吞吐量的最佳arch是什么?我看过google pubsub/p + google dataflow + apache beam,但这似乎需要很长时间才能实现自动扩展。

欢迎提出进一步探讨的建议。

EN

回答 1

Stack Overflow用户

发布于 2020-10-14 23:21:07

  1. 从发布/订阅主题中读取消息,
  2. 解析输入消息的JSON,并生成一个主输出
  3. ,然后选择性地写入BigQuery。

当数据将在发布/订阅主题中每秒创建数百万条消息时,Dataflow将扩展工作进程的数量,以处理进入的发布/订阅消息的积压,并将管道的系统延迟保持在最佳水平。

我建议查看下面的Codelabs,它展示了如何启动数据流管道,监控它,最后与发布/订阅一起优化它。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64350105

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档