有没有可能根据Kubernetes集群中发生的事件以某种方式发送警报(到电子邮件/ slack)?
特别是,如果pod意外重新启动或pod无法启动,则收到警报将非常有用。同样,了解pod的CPU使用率是否超过某个阈值并发出警报也很有用。
我们已经安装了Heapster (带有InfluxDB / Grafana后端)。虽然这提供了有用的数据,但不幸的是,它不能为我们提供警报。
发布于 2015-12-08 01:25:17
sysdig和Datadog也都提供了此功能。
发布于 2015-12-08 01:02:01
您可以检查并可能将InfluxDB替换为http://prometheus.io (我不确定您的情况,但通常是可能的),它具有内置的指标支持。
发布于 2022-01-03 18:07:46
你提到的每个问题的答案都略有不同。让我们一次只看一个。
Pod重启及相关问题:
I wrote an open source tool named Robusta to do this.
首先是截图,然后是解释:

这是通过侦听来自APIServer的事件并在pods处于CrashLoopBackOff状态时运行内置自动化来实现的。默认情况下,它会获取日志并将其发送到Slack,但这是可配置的。
配置如下,但请记住,您不需要实际配置此配置。它包含在默认配置文件中:
- triggers:
- on_pod_update: {}
actions:
- restart_loop_reporter:
restart_reason: CrashLoopBackOff
- image_pull_backoff_reporter:
rate_limit: 3600高CPU
你应该对普罗米修斯这样做。
如果你想收集额外的信息,你可以通过罗布斯塔传送普罗米修斯。例如,您可以运行bash命令从触发警报的pod收集额外信息。或者,您可以发送相关指标的图表。
https://stackoverflow.com/questions/34138765
复制相似问题