我们有许多机器人安装在不同的地点,并为客户提供服务。所有的机器人都是从中央云数据库中得到指令的,每个人都有一个SQS队列,它传递他们必须执行的命令,机器人使用SNS广播任何事件,而一些lambdas是由这些SNS消息触发并处理的。
现在,我们希望有一个更好的处理和概述错误发生在机器人和一般有更好的统计。
recovery_error )所有消息都有一个type属性,可以是status、warning、error或recovery_error,还有一个value属性,用于描述状态、错误等的类型。
我的想法是有一个lambda订阅所有的SNS消息,并将这些上传到另一个系统,然后我们将收集它,并提供我们需要的提取上述数据。
对此,您推荐哪些AWS产品?我已经看过CloudWatch了,但我不确定它是否能满足我们的需求。
我们还考虑将所有SNS消息转储到数据库中,并对表进行自定义查询。但这听起来像是一种解决方案,随着我们需求的增长,它很快就需要我们做大量的工作。
我们更喜欢现成的解决方案,并调整我们的工作流程。
提前谢谢你的建议。
发布于 2020-03-19 04:24:17
CloudWatch提供了基于开箱即用的基于时间的度量和日志摄入、查询和仪表板。此外,它还提供了基于指标的警告。通常,它满足您收集设备的度量标准的要求,当错误发生时会发出警报,并具有基于给定时间段的统计仪表板。甚至可以使用CloudWatch代理/API直接从设备发送数据。
此外,使用Kibana管理的弹性搜索还提供了巨大的数据聚合能力和更好的仪表板用户体验。
另一种方法是利用IoT服务,它们可能更适合您的需求。
https://serverfault.com/questions/1007237
复制相似问题