文章/答案/技术大牛

发布

社区首页 >问答首页 >如何在很短的持续时间内处理突发的流数据

问如何在很短的持续时间内处理突发的流数据
EN

Stack Overflow用户

提问于 2020-10-14 17:13:18

回答 1查看 51关注 0票数 0

我们想开发一个系统，可以处理突发的流数据，1M事件/秒，持续1分钟，然后负载将显着降低到100/秒。

这些1分钟的数据突发每天可能发生5-10次，我们需要聚合(简单分组)数据并将其转储到另一个服务。这些聚合需要每隔200ms进行一次。

在这里，最小成本和最大吞吐量的最佳arch是什么？我看过google pubsub/p + google dataflow + apache beam，但这似乎需要很长时间才能实现自动扩展。

欢迎提出进一步探讨的建议。

spark-streaming

google-cloud-dataflow

apache-beam

data-processing

streaming

回答 1

Stack Overflow用户

发布于 2020-10-14 23:21:07

从发布/订阅主题中读取消息，
解析输入消息的JSON，并生成一个主输出
，然后选择性地写入BigQuery。

当数据将在发布/订阅主题中每秒创建数百万条消息时，Dataflow将扩展工作进程的数量，以处理进入的发布/订阅消息的积压，并将管道的系统延迟保持在最佳水平。

我建议查看下面的Codelabs，它展示了如何启动数据流管道，监控它，最后与发布/订阅一起优化它。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/64350105

复制

相似问题

问如何在很短的持续时间内处理突发的流数据
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在很短的持续时间内处理突发的流数据EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在很短的持续时间内处理突发的流数据
EN