我们想开发一个系统,可以处理突发的流数据,1M事件/秒,持续1分钟,然后负载将显着降低到100/秒。
这些1分钟的数据突发每天可能发生5-10次,我们需要聚合(简单分组)数据并将其转储到另一个服务。这些聚合需要每隔200ms进行一次。
在这里,最小成本和最大吞吐量的最佳arch是什么?我看过google pubsub/p + google dataflow + apache beam,但这似乎需要很长时间才能实现自动扩展。
欢迎提出进一步探讨的建议。
发布于 2020-10-14 23:21:07
当数据将在发布/订阅主题中每秒创建数百万条消息时,Dataflow将扩展工作进程的数量,以处理进入的发布/订阅消息的积压,并将管道的系统延迟保持在最佳水平。
我建议查看下面的Codelabs,它展示了如何启动数据流管道,监控它,最后与发布/订阅一起优化它。
https://stackoverflow.com/questions/64350105
复制相似问题