首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏腾讯云智能顾问

    凌晨 3 点的告警,你是开电脑还是拿手机?

    运维告警不挑时间。但你的运维工具,能不能在任何时间、任何地点都让你搞定问题?本文对比主流 ChatOps 方案,看看 2026 年的运维入口应该长什么样。 一、一个运维人的真实夜晚凌晨 2:47,手机震了一下。企微消息: 生产环境 CVM-web-03 CPU 使用率 94%,持续 5 分钟。如果你是运维负责人,接下来的动作是什么? 嘉为蓝鲸 ITSMHubot/ErrbotIM 覆盖企微、微信、飞书、钉钉、Slack、QQ (6+)通常 1-2 个Slack 为主Web 工单需逐个适配能做什么查架构图、执行巡检、看评估报告、处理告警只能收通知告警确认 阶段能力代表价值1.0IM 收告警通知Webhook Bot通知到达率提升2.0IM 中确认/升级告警PagerDuty响应速度提升3.0IM 中执行运维操作CloudQ运维效率 10x 提升4.0AI 下次凌晨 3 点告警响的时候,你是想开电脑,还是拿手机?

    24310编辑于 2026-03-31
  • 来自专栏架构师之路

    用户视角的监控,再也不用凌晨起床处理线上告警

    凌晨三点,告警短信响了,到底要不要起床检查系统? 这个问题,是和技术人密切相关的问题。 于是乎,只要用户视角的监控不告警,是可以第二天再起床处理其他监控的告警的。 画外音:这帮不靠谱的架构师,每次都说能高可用,任何一个地方挂了,用户就受影响了。 如何进行用户视角的监控? 可以购买第三方监控平台的服务,在配置后台配置 待监控的页面,或者http接口 频率,阈值 告警接收人 等信息,就能够快速实时全国各城市,甚至全世界各个国家的用户视角监控了,非常帅气。

    1.6K60发布于 2018-03-02
  • 凌晨 3 点告警,你是开电脑还是拿手机?腾讯云 CloudQ 用对话解决

    凌晨2:47。手机震动,是告警短信。你躺在床上,脑子还没完全清醒,盯着天花板想:这个告警严不严重?能不能等到明早处理? 两种处理方式,天壤之别传统方式:必须开电脑展开代码语言:TXTAI代码解释告警短信→起床→找电脑开机(2分钟)→连VPN(3分钟)→登录控制台(2分钟)→找到对应监控页面(5分钟)→看懂指标→判断严重程度 不只是应急,更是工作方式的改变凌晨告警只是一个极端场景。腾讯云CloudQ真正改变的是一种工作方式:运维不再需要绑定在电脑前。 某电商团队的数据:接入CloudQ后,大促值班人员从6人减至2人,告警响应时间从平均28分钟降至4分钟。怎么开始? 下次凌晨告警,你可以拿着手机处理,然后继续睡觉。

    8210编辑于 2026-04-09
  • 凌晨 3 点的数据库告警,终于被 AI 治好了 | 数据库 AIOps 落地全指南

    凌晨 3 点,手机告警疯狂震动,核心业务数据库 CPU 飙至 100%,业务接口大面积超时。 告警风暴淹没有效信息,误报漏报两头难传统阈值告警的弊端极其明显:阈值设低了,一天几百条告警,运维人员早已麻木,真正的故障告警被淹没;阈值设高了,又会出现严重漏报,等故障爆发才发现早已出现异常征兆。 智能告警与根因分析:告别告警风暴,分钟级定位故障根因 这是绝大多数企业落地数据库 AI 运维的第一站,也是解决 “救火式运维” 的核心能力。 AI 会自动适配业务高峰期、低峰期的指标波动,精准识别真正的异常,告警误报率降低 80% 以上; 通过告警聚合与关联分析,将同一故障引发的几十上百条告警收敛为一条核心告警,彻底解决告警风暴; 自动关联指标 比如先落地智能告警收敛与根因分析,解决半夜告警、故障排查慢的问题;再落地智能 SQL 优化,解决 DBA 最耗时的核心工作。单点落地快速看到效果,再逐步扩展其他场景,团队接受度更高,落地风险也更低。

    18010编辑于 2026-04-13
  • 来自专栏首富手记

    prometheus 告警

    prometheus 告警 1, prometheus 告警简介 告警能力在Prometheus的架构中被划分成两个独立的部分。 如下所示,通过在Prometheus中定义AlertRule(告警规则),Prometheus会周期性的对告警规则进行计算,如果满足告警触发条件就会向Alertmanager发送告警信息。 : 告警名称:用户需要为告警规则命名,当然对于命名而言,需要能够直接表达出该告警的主要内容 告警规则:告警规则实际上主要由PromQL进行定义,其实际意义是当表达式(PromQL)查询结果持续多长时间( During)后出发告警 在Prometheus中,还可以通过Group(告警组)对一组相关的告警进行统一定义。 1,1 自定义 prometheus 告警规则 Prometheus中的告警规则允许你基于PromQL表达式定义告警触发条件,Prometheus后端对这些触发规则进行周期性计算,当满足触发条件后则会触发告警通知

    6.9K00发布于 2020-02-07
  • 来自专栏程序员备忘录

    prometheus告警

    在讲解prometheus的时候我们说其具有告警的特征,也就是prometheus在收集监控数据的时候会根据规则判断相应指标是否达到了告警上线然后使用推送的方式进行告警。 但是要明确的一点是prometheus的仅仅是用来收集和查询监控数据的,要让我们的prometheus具有告警功能还需要prometheus体系的另一个组件altermanger,这块我们大概的讲解一下 主要用来管理告警信息发送的规则,也就是说给谁发,用那种方式。 这块作者简单测试了一下监控mysql的线程数的告警。首先配置一下prometheus的数据收集的规则和push告警信息的地址。 rules: - alert: "连接数报警" expr: mysql_global_variables_mysqlx_max_connections > 90 #连接数大于90就告警 并在prometheus的alter栏目中查看告警是否触发。发现已经触发了告警配置。 在配置好prometheus的告警之后,我们需要配置altermanager的告警信息路由规则。

    1K10编辑于 2022-08-11
  • 来自专栏adu_blog

    实现redis缓存次日凌晨失效

    思路 实际项目开发过程中我们需要设置某个redis的key只保留一天,如刷新时间日期的key,所以我们在设置的key的时候就需要计算当前时间离凌晨的秒数 方案一:使用Calendar(Java

    1.2K10编辑于 2022-10-30
  • 来自专栏架构师之路

    为啥总在凌晨上线,如何无损发布

    调研:贵司是否是凌晨上线?你怎么看?

    1.9K30发布于 2018-06-13
  • 来自专栏Dechin的专栏

    Python基础之告警定义与告警抑制

    这里我们要介绍另外一种形式的用户提醒:告警。 这里从结果中可以看到,我们对告警的定义就完成了。 Python告警抑制 在前面一篇博客中我们介绍了异常的抑制,同样的我们也可以抑制告警信息。 但是这里用抑制来形容这个行为可能并不是很合适,只是一个习惯性的叫法,因为告警本身就不影响程序的正常运行,应该说只是过滤掉告警信息的打印输出。 最后我们发现,告警被成功抑制,并且告警之后的程序也能够正常的运行。 总结概要 告警和异常信息的定义与处理,在网络编程项目和各种实际计算的场景中都会被用到。 更多的时候是规范的要求,我们可能需要修改异常和告警所继承的类型。同时对于异常和告警信息,我们也能够有方案去进行抑制,更加适配各种不同的场景需求。

    1.1K20发布于 2021-05-21
  • 来自专栏python深度学习

    Python基础之告警定义与告警抑制

    Python告警定义 这里有一篇博客比较全面的介绍了在python中定义告警的类别和方法,这里我们选取一种最容易使用也最常用的方法,直接使用warnings.warn的功能: 1 2 3 4 5 6 7 这里从结果中可以看到,我们对告警的定义就完成了。 Python告警抑制 在前面一篇博客中我们介绍了异常的抑制,同样的我们也可以抑制告警信息。 但是这里用抑制来形容这个行为可能并不是很合适,只是一个习惯性的叫法,因为告警本身就不影响程序的正常运行,应该说只是过滤掉告警信息的打印输出。 最后我们发现,告警被成功抑制,并且告警之后的程序也能够正常的运行。 总结概要 告警和异常信息的定义与处理,在网络编程项目和各种实际计算的场景中都会被用到。 更多的时候是规范的要求,我们可能需要修改异常和告警所继承的类型。同时对于异常和告警信息,我们也能够有方案去进行抑制,更加适配各种不同的场景需求。

    1K00发布于 2021-04-01
  • 来自专栏首富手记

    prometheus 告警指标

    记录了prometheus 告警指标 主机和硬件监控 可用内存指标 主机中可用内存容量不足 10% - alert: HostOutOfMemory expr: node_memory_MemAvailable_bytes

    3.5K10发布于 2020-12-10
  • 来自专栏首富手记

    prometheus 告警指标

    记录了prometheus 告警指标 主机和硬件监控 可用内存指标 主机中可用内存容量不足 10% - alert: HostOutOfMemory expr: node_memory_MemAvailable_bytes

    2.8K20发布于 2020-12-10
  • 来自专栏第三方工具

    cron表达式,每月1号凌晨3点执行和每周4凌晨3点半执行

    cron表达式,每月1号凌晨3点执行和每周4凌晨3点半执行 1.每月1号凌晨3点执行的Cron表达式为:0 0 3 1 * ? 每个月1号 凌晨3点     0 0 3 1 * ?    * 这两个都可以 表达式解析 ‌秒(0)‌:第0秒触发 ‌分(0)‌:第0分钟触发 ‌小时(3)‌:凌晨3点触发 ‌日期(1)‌:每月1号触发 ‌月份(*)‌:所有月份均生效 ‌星期(?)‌ 2.cron表达式,每周4凌晨3点执行 要实现每周四凌晨3点执行的cron表达式,其标准格式为0 3 * * 4。 该表达式的含义解析如下: 实际正解的是: 每周四 凌晨3点半 0 30 3 ? * 5 * ‌秒(0)‌:第0秒触发 ‌分(30)‌:第0分钟触发 ‌小时(3)‌:凌晨3点触发 ‌日期(?)‌

    74610编辑于 2025-10-01
  • 来自专栏Python | Blog

    zabbix 告警设计

    告警设计 通过zabbix api 查询报警信息 (已实现) 通过查询sql 查询告警信息 然后通过转发实现消息推送( 重新定义一个数据库,使用触发器把zabbix 数据库中的告警数据同步到新库,查询新库和平台对接) 重写源码接口 改写源码的消息发送方式. 与平台对接用的 requests 模块 发送URL 具体实现 方案一 通过zabbix api 查询报警信息 (已实现) 方案二 通过查询sql 查询告警信息 然后通过转发实现消息推送 ( 重新定义一个数据库,使用触发器把zabbix数据库中的告警数据同步到新库,查询新库和平台对接) # 添加字段 hostid ## 可以在新库上面拓展字段 # 创建数据库 report 创建表 `events`.eventid=new.eventid; END; $$ DELIMITER ; 方案三 重写源码接口 还没有找到具体的收集告警的代码, (收集数据是在 zabbix_agent

    1.2K20发布于 2019-07-31
  • 来自专栏运维小白

    19.15 测试告警

    测试告警 创建触发器,来实现告警,配置-->主机-->hf-02主机-->创建触发器 名称:系统负载 严重性:警告 表达式: 如下 选择 添加 最终看到如下 然后回到监控中心,主页——>最近20个问题 如果提示为启用中,证明发现问题,正在启用告警,显示问完成,就证明已经发送邮件告警;如图,我们的实验是成功的 查看邮箱,会看到邮件发送 这就表示测试邮件告警成功 这时想要解决这个问题,只要将触发器 系统负载条件数值调整

    851110发布于 2018-02-07
  • 来自专栏企业监控prometheus与Grafana

    Prometheus告警简介

    Prometheus告警简介简介告警能力在Prometheus的架构中被划分为俩个独立的部分.如下图所示,通过在Prometheus中定义AlertRule(告警规则),Prometheus会周期性的对告警规则进行计算 ,如果满足告警触发条件就会向Alertmanager发送告警信息alertManager作为一个独立的组件,负责接收并处理来自Prometheus Server 的告警信息.Alertmanager可以对这些告警信息进行进一步的处理 的特性Alertmanager除了提供基本的告警通知能力外,还主要提供了如:分组,抑制,以及静默等告警特性:下面来逐一讲解:分组分组机制可以将详细的告警信息合并成一个通知.在某些情况下,比如由于系统宕机导致大量的告警同时被触发 ,在这种情况下分组机制可以将这些被触发的告警合并成一个告警通知,避免一次性接收大量的告警通知,而无法对问题进行快速定位.例如,当集群中有数百个正在运行的服务实例,并且为每一个实例设置了告警规则.加入此时发生了网络故障 ,而将这些告警内聚在一起成为一个通知.告警分组,告警时间,以及告警的接收方式可以通过Alertmanager的配置文件进行配置抑制抑制是指当某一告警发出后,可以停止发送由此告警引发的其他告警的机制.例如

    43910编辑于 2024-01-14
  • 来自专栏代码人生

    prometheus 告警机制 - 我的告警为什么重发

    为什么告警总在重复发,有时不重复发,怎么避免 告警会在两种情况下重发 告警 group 列表中告警有变更(增加或者减少) 告警持续到 repeat_interval 配置的重发时间。 当 prometheus 下次扫描告警规则时,发现告警列表中的告警(新增/恢复),才会触发告警。 比如一个 group 的告警 A, B,C 在 30s 触发,聚合到一个告警列表发送。 在下次扫描规则时,A,B,C 持续异常,且没有别的告警,不会发送告警列表;如果存在新告警D,告警列表会加入 D,此时告警列表存在 A, B, C, D,才会发送告警(原列表中告警恢复也会发送)。 解决办法 group 将易变的告警和容易持续异常的告警分到不同的组,发送时组内就不会存在一直是异常的告警。 快速把告警修好。 比如有同组的告警A和告警B,如果A触发告警,会等待30s,如果B在等待时间内也出发告警,会合并在一起发送,如果告警A 触发两次,告警A 发送后,30s 之后在发告警A第二次触发 repeat_interval

    2.4K20编辑于 2022-05-11
  • 来自专栏运维部落

    告警平台设计及告警收敛通用解决方案

    运维就要无所不能,无所不会 告警平台设计及告警收敛通用解决方案 先有监控,后有告警。 虽厂商有自动换号机制,但健康检测不可少 级联告警告警收敛打基础,减少告警信息,避免告警风暴 告警收敛 特别重要,依次要有告警自愈、级联告警告警收敛 告警权重 针对不同告警权重,做对应告警策略。 告警分层 分业务、分模块、分团队、分时段,必不可少 告警升级 包括告警通道告警告警职级升级 四、告警收敛通用解决方案 告警收敛首先要解决的问题是告警风暴! 精细化的案例,如:A业务模块告警只通知A运维,而非通知GROUP组。但没有解决Leader要接受所有告警的场景。 告警抑制 有告警自动抑制功能,需事先做告警级联。上游告警屏蔽下流告警告警静默 有手动入口设置告警静默,如常规发布窗口,需有入口关闭告警。如明知A告警会引发B类告警,可以提前关闭B类告警。但不容易解决告警遗忘的问题。如维护期结束,告警静默却没有关闭导致告警无法发出。

    7.2K62发布于 2021-05-08
  • 来自专栏宫水三叶的刷题日记

    凌晨重磅!ChatGPT 今天起免登录使用

    GPT 3.5 免登录使用 今日凌晨,OpenAI 宣布,ChatGPT 无需登录就能使用。 一直以来,GPT 3.5 都是注册账号,就能免费使用,只有 GPT 4 才是需要花钱订阅。

    5K10编辑于 2024-04-12
  • 来自专栏Prompt Engineering

    凌晨三点,我盯着Excel表格发呆

    数据分析师的隐形困境凌晨三点的绝望,在数据分析圈子里不是个例。去年一份《数据从业者现状调查》显示:67%的数据分析师认为"写报告"比"做分析"更耗时,43%的人承认自己的报告"老板看不懂或者不爱看"。 老板关心的不是"转化率从3.2%降到2.9%",他想知道的是"这意味着什么"以及"接下来该怎么办"。意外的破局时刻转机来自一个偶然的尝试。 那天凌晨三点半,实在写不下去了,我抱着试试看的心态,把当时刚流行的DeepSeek打开,随手输入了一段话:"帮我写一份电商转化率下降的数据分析报告。" 最想对你说的话那天凌晨三点的绝望,现在回想起来,其实是个转折点。它让我意识到:数据分析师的价值,不在于会用多少工具、掌握多少算法,而在于能否把数据翻译成商业决策。 接下来该怎么办?"这三个问题时,你就已经超越了90%的数据分析师。下次当你面对一堆数据不知从何下手时,打开DeepSeek或通义千问,用这个指令试试看。

    22410编辑于 2025-11-24
领券