首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >监控外部机器事件的AWS解决方案,由SNS报告?

监控外部机器事件的AWS解决方案,由SNS报告?
EN

Server Fault用户
提问于 2020-03-17 12:19:21
回答 1查看 79关注 0票数 0

我们有许多机器人安装在不同的地点,并为客户提供服务。所有的机器人都是从中央云数据库中得到指令的,每个人都有一个SQS队列,它传递他们必须执行的命令,机器人使用SNS广播任何事件,而一些lambdas是由这些SNS消息触发并处理的。

现在,我们希望有一个更好的处理和概述错误发生在机器人和一般有更好的统计。

我们需要的是:

  • 当发生需要手动操作才能恢复的错误时,请发出警报。
  • 最常见错误类型的概述。
  • 在其他人之前会发生什么错误(即是什么错误导致了需要手动维护的recovery_error )
  • 给定期间的总体性能统计数据
    • 成功的会议次数
    • 用户错误导致的会话失败
    • 由于技术错误导致会话失败
    • 机器人无法自动恢复并返回初始位置的错误。

所有消息都有一个type属性,可以是statuswarningerrorrecovery_error,还有一个value属性,用于描述状态、错误等的类型。

我的想法是有一个lambda订阅所有的SNS消息,并将这些上传到另一个系统,然后我们将收集它,并提供我们需要的提取上述数据。

对此,您推荐哪些AWS产品?我已经看过CloudWatch了,但我不确定它是否能满足我们的需求。

我们还考虑将所有SNS消息转储到数据库中,并对表进行自定义查询。但这听起来像是一种解决方案,随着我们需求的增长,它很快就需要我们做大量的工作。

我们更喜欢现成的解决方案,并调整我们的工作流程。

提前谢谢你的建议。

EN

回答 1

Server Fault用户

发布于 2020-03-19 04:24:17

CloudWatch提供了基于开箱即用的基于时间的度量和日志摄入、查询和仪表板。此外,它还提供了基于指标的警告。通常,它满足您收集设备的度量标准的要求,当错误发生时会发出警报,并具有基于给定时间段的统计仪表板。甚至可以使用CloudWatch代理/API直接从设备发送数据。

此外,使用Kibana管理的弹性搜索还提供了巨大的数据聚合能力和更好的仪表板用户体验。

另一种方法是利用IoT服务,它们可能更适合您的需求。

票数 0
EN
页面原文内容由Server Fault提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://serverfault.com/questions/1007237

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档