首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在spark应用中导致延迟的亚秒级延迟

在spark应用中导致延迟的亚秒级延迟
EN

Stack Overflow用户
提问于 2021-08-13 07:37:39
回答 1查看 22关注 0票数 0

我有一个每分钟运行一次的spark批处理作业,每批处理大约200k条记录。该应用程序通常的处理延迟为~30秒。在应用程序中,对于每个请求,我们向DynamoDB发出一个写请求。有时,服务器端DDB写入延迟约为5毫秒,而不是3.5毫秒(比通常的延迟3.5毫秒增加了约30%)。这会导致应用程序的总体延迟增加6倍(~3分钟)。

DDB调用的亚秒级延迟对app整体延迟有6倍的影响?

PS:我已经通过重叠DDB put延迟和spark应用处理延迟的云观察图验证了根本原因。

谢谢,维诺德。

EN

回答 1

Stack Overflow用户

发布于 2021-08-17 09:29:31

这只是一个大概的估计:

如果平均延迟为3.5毫秒,大约一半的200k记录在5毫秒内处理,而不是3.5毫秒,这将给我们留下:

代码语言:javascript
复制
200.000 * 0.5 * (5 - 3.5) = 150.000 (ms)

总延迟,即150秒或2.5分钟。我不知道进程的并行化程度如何,但这似乎在预期的延迟之内。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/68768451

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档