首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏云原生搬运工

    【TKE】 配置事件告警实践

    操作场景对集群中比较关注的事件信息设置告警,以便快速感知该事件发生情况。操作步骤事件告警依赖 CLS 日志告警功能,所以需要先开启集群事件存储,参考 开启事件存储。2. 选择导航栏左侧运维中心 > 日志管理 > 事件日志,进入“事件检索”页面。通过事件仪表盘检索已有的事件样例,参考 全局检索 。 比如我们要想告警原因为 "NotTriggerScaleUp"(Pod Pending 没有触发节点池扩容事件) 的事件数量告警 ,我们可以在 交互模式 下, 添加筛选条件 event.reason 为 在 CLS 告警策略 界面设置告警配置。根据第 2 步生成的查询语句创建告警配置,如下图:图片触发条件语法参考:触发条件语法。4. 根据帮助文档配置告警对象相关信息后保存,如下图:图片上述第3、4步配置详情和告警测试请参考 CLS 监控告警文档。

    89962编辑于 2023-02-21
  • 来自专栏Tencent Serverless 官方专栏

    事件总线能力升级,联动云上事件告警

    目前,EventBridge 正式支持事件告警能力,仅需几步配置,即可实现业务告警的自动推送。 01. 方案简介 基于 EventBridge 事件总线的告警推送链路如下,业务方主动上报告警事件给到 EventBridge,用户通过配置事件的匹配规则,完成告警事件的筛选,并通过不同投递目标的配置完成消息的进一步处理 告警规则配置 以 CVM 告警配置为例,您可以选择指定的事件告警类型,也可以选择全部告警事件,从而筛选具体的告警事件。 3. 日志存储 将您的告警事件投递至默认的事件总线日志集,方便您对已投递的告警事件随时进行追溯。 03. 能力拓展 如果您需要对告警事件进行进一步分析和处理,可以将事件投递至云函数,在函数代码里实现相关逻辑设计,如下图,基于云函数的能力,您可以实现告警消息处理架构的更多能力拓展,例如: 提取告警事件详情,组织消息文案

    94950发布于 2021-10-25
  • 来自专栏腾讯云容器运维

    TKEEKS多集群事件日志如何采集并配置事件告警

    对于warn级别的异常报错事件,不能告警提示。 为了能更好的检索日志,并配置事件日志告警,下面我们通过阿里的开源组件kube-eventer来实现对tke/eks多集群的事件日志采集。 并配置下事件告警发送到钉钉。 创建钉钉机器人接受告警 因为我们需要将事件告警发送到钉钉,所以需要提前创建好一个接受告警的机器人,首先需要有一个钉钉群,并且是管理员,点击群管理,然后点击智能群助手 image.png 添加机器人 image.png ,表示只发送Warning级别的事件告警告警格式为markdown,同时配置下label,第一个label为集群id,第二个是对应机器人设置的关键字。 钉钉查看告警 从上面的检索看,pod的事件日志是一条Warning类型,这里到钉钉群里看下,是否有这条事件告警,如果有收到告警,则说明告警配置正常 image.png 告警群里收到了事件告警,说明集群的告警配置正常

    1.7K100编辑于 2022-05-11
  • 来自专栏betasec

    威胁事件告警分析技巧及处置(二)

    0x02期望效果 看完本文后,您能学到: >常见告警攻击特征识别 > 低危告警攻击事件忽略 > 研判告警攻击是否误报 > 复杂告警攻击Pcap取证 > 验证告警攻击是否成功 0x03webshell后门特征 HOtt7defd2/3Nna2mlvd/C+/FzvcX9vCy/lL190N2bv2+wMVrbbm921lS/u9wad/srm7trs3NzNT3/qyEZvr9Neuzw7s3L2zPJ5rd3XZq5oS8e1matzmnr2xMyVS9qS1h sbin:/bin/sync shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown halt:x:7:0:halt:/sbin:/sbin/halt mail:x:8: 例如产生了暴力破解告警,同时发现相关的登录成功告警,则攻击成功。 基于不同告警日志的关联判断攻击成功与否。 例如产生了永恒之蓝漏洞利用的告警,同时发现漏洞利用成功的反连行为的告警,则说明永恒之蓝漏洞利用成功;或者产生了redis未授权写ssh密钥的行为,且后面有登录ssh的行为也基本可判断为攻击成功,但是具体与否还需要登录服务器进行查看

    3.1K20发布于 2020-09-23
  • 来自专栏betasec

    威胁事件告警分析技巧及处置(一)

    0x02期望效果 看完本文后,您能学到: >常见告警攻击特征识别 > 低危告警攻击事件忽略 > 研判告警攻击是否误报 > 复杂告警攻击Pcap取证 > 验证告警攻击是否成功 0x03通用攻击关键特征 在设备上产生的告警 通过这些字段我们可以进行事件的研判,但是就我个人而言,不必执着于告警名称,如果这些字段中包含了一些通用的攻击特征,那么我可判断为是真实攻击,然后再进行下一步确定是否是自己人员进行安全测试,是否需要溯源等下一步的工作计划 shadow/ c:\boot.ini/ C:/Windows/system.ini、/windows/win.ini ../../../../../ 若是只有一个且后面是图片类型 pdf类型那需结合其他事件进行综合判断

    3.7K42发布于 2020-09-23
  • 来自专栏腾讯云可观测专栏

    云监控「事件告警」相关功能即将下线通知。

    云监控「事件告警」相关功能将于2021年12月31日正式下线,相关能力将由「事件总线」承载。 本次变更仅涉及云监控事件告警部分功能,其它能力保持不变。迁移到事件总线后与现有事件告警体验一致。 为保证您的事件相关服务可以正常使用,您可开通「事件总线」。点击“阅读原文”参考「一键迁移文档」,可将云监控侧存量告警策略与推送目标一键迁移至事件总线。同时,请您手动在事件总线启用事件告警规则。 事件总线产品在原有功能上新增规则匹配、自定义事件集、多目标投递等特性。想要了解更多关于「事件总线」产品,可扫描下方二维码查看产品文档。 扫码了解事件总线 感谢您对腾讯云的信赖与支持!

    72130编辑于 2021-12-15
  • 来自专栏运维开发故事

    Kubernetes中的事件收集以及监控告警

    在实际中,我们对Kubernetes事件还有其他的需求,比如: 希望对异常的事件告警处理; 希望查询更长事件的历史事件; 希望对集群事件进行灵活的统计分析; 为此,我们需要单独对Kubernetes事件进行收集 使用kube-eventer进行事件告警 kube-eventer的告警通道可以是企业微信、钉钉以及webhook。 再比如,如果不想产生非常多的告警风暴,只发送某些特定原因的告警,比如系统OOM的事件,可以增加reason=SystemOOM等待。 当kube-eventer的Pod启动完成后,企业微信即可收到满足条件的事件告警,比如: 使用kube-event-exporter收集集群事件 上面使用kube-eventer进行事件告警,本质上并没有存储历史事件 在企业中还可以对其进行二次开放以将功能更丰富,比如支持对事件告警增加开关,可以任意开启或者关闭某个事件告警

    1.2K20编辑于 2024-04-10
  • 来自专栏后端技术学习

    DolphinScheduler中处理任务告警事件相关核心思路

    处理任务/告警/事件等的套路。 触发源自于相关工作流和task处理的事件产生的告警信息,从而实现对应的event事件,从而进行告警,而告警是通过启动告警模块,进行队列的put和take处理,从而实现对应各个渠道的对接告警的。 告警信息的放入: eventPendingQueue.put(alert) 什么时候会put? 存在告警数据的时候会put。 从这些监听事件中,我们可以看到这里的监听事件主要和工作流处理和Task处理监听有关,也即和我们的task和workflow有关,也即我们最核心的业务处理。 可以根据这些事件找到对应的事件找到对应的业务逻辑处理。 eventPendingQueue.take()的地方在哪里?

    78610编辑于 2024-07-24
  • 来自专栏Android开发指南

    8.滑动事件处理

    上面是三个viewPager相互嵌套,这么就需要对滑动事件进行处理 首先我们不需要viewpager1滑动,因为每次滑动的时候它的父控件就拦截了它的事件,侧边栏的每次滑的时候就跑了出来,所以这里是这样处理的 :使用自定义viewpager,重写它的方法 /** * 重写onTouchEvent事件,什么都不用做,不能滑动 */ @Override public boolean onTouchEvent // 表示事件是否拦截, 返回false表示不拦截, 可以让嵌套在内部的viewpager相应左右划的事件 @Override public boolean onInterceptTouchEvent 修改indicate的源码TabPageIndicator.java /** * 事件分发, 请求父控件及祖宗控件不要拦截事件 */ @Override public boolean dispatchTouchEvent , 请求父控件及祖宗控件是否拦截事件 1.

    1.4K120发布于 2018-05-14
  • 来自专栏Android开发指南

    8.滑动事件处理

    上面是三个viewPager相互嵌套,这么就需要对滑动事件进行处理 首先我们不需要viewpager1滑动,因为每次滑动的时候它的父控件就拦截了它的事件,侧边栏的每次滑的时候就跑了出来,所以这里是这样处理的 :使用自定义viewpager,重写它的方法 /** * 重写onTouchEvent事件,什么都不用做,不能滑动 */ @Override public boolean onTouchEvent // 表示事件是否拦截, 返回false表示不拦截, 可以让嵌套在内部的viewpager相应左右划的事件 @Override public boolean onInterceptTouchEvent 修改indicate的源码TabPageIndicator.java /** * 事件分发, 请求父控件及祖宗控件不要拦截事件 */ @Override public boolean dispatchTouchEvent , 请求父控件及祖宗控件是否拦截事件 1.

    1.1K20编辑于 2022-01-12
  • 来自专栏深度学习进阶

    AIOps异常检测(二):基于告警事件的实时故障预测

    本文主要介绍一种实时故障预测的文章《Real-Time Incident Prediction for Online Service Systems》,使用告警数据来预测未来一段时间是否会发生真实故障。 ; 2)通过多实例学习(multi-instance learning)来区分有用告警和噪音告警; 3)基于特征工程提取出的特征,使用XGBoost进行异常识别; 4)将故障预测结果反馈给用户,并采用LIME 特征提取 文本特征:采用LDA(Latent Dirichlet Allocation)来提取文本特征; 统计特征:告警量【总告警量、不同严重程度的告警量、不同类型(应用、数据库、内存、中间件、网络、硬件等 )的告警量】、窗口时间【hour of the day、工作日or周末、day of the week、是否business hour等等】、告警的平均间隔时间【窗口内的告警是否频繁】 多实例学习过滤噪音告警 Over-sampling TEchnique)平衡正负样本,再使用XGBoost进行训练 LIME模型可解释性 报告实例如下,第二部分的特征贡献是有LIME中的线性模型计算的权重,越重要的特征可能与预测事件的根本原因越相关

    2.9K41发布于 2021-09-15
  • 来自专栏用户7873631的专栏

    dom啦8 DOM事件

    document.querySelector("a"); ww.onclick=function() { alert("a标签被点击了"); // 以下代码的含义: 用我们添加的事件覆盖掉系统同名的事件

    1.3K20发布于 2020-10-28
  • 来自专栏运维开发故事

    避免告警疲劳:每个 K8s 工程团队的 8 个技巧

    首先,你可以根据系统事件对服务正常运行时间的影响,将系统事件分为严重、警告和异常类别。然后,你可以将告警工具配置为仅针对关键事件发送告警。 将类似的告警组合在一起 虽然对事件进行分类有助于组织告警,但它仍然不能解决一个主要问题:重复。你可能会收到系统中重复发生的事件的重复告警。 对于源自重复事件的重复告警,你还可以考虑应用过滤器和规则将类似的告警组合在一起。你可以依靠事件提供的信息来确定它们是否重复发生。 因此,你应该集中精力收集有关系统中发生的事件的尽可能多的信息。此信息将帮助你区分重复事件,并帮助你确定外观相似的事件是否需要特别注意。除了提高告警策略的质量外,它还可以在以后解决问题时为你提供帮助。 原文:https://dzone.com/articles/avoiding-alert-fatigue-8-tips-for-every-k8s-engine

    51820编辑于 2022-09-15
  • 来自专栏WeOps

    告警管理的智能引擎:复杂事件处理(CEP)实战解析

    直达原文:告警管理不止降噪:如何从零散事件中挖出关键信息复杂事件处理(CEP,Complex Event Processing)是一项针对动态事件流进行实时分析、复杂模式识别及关联性推理的技术,广泛适用于处理海量实时数据 ,而这种技术同样非常适用于IT运维中的告警管理场景。 (1)下面举一个例子“若Web服务器发生‘连接超时’告警(原子事件),且负载均衡器同步出现‘请求转发失败’日志(原子事件),则触发‘服务链路故障’复合事件”。 我们可以惊喜的看到,嘉为蓝鲸告警中心的逻辑可以按照CEP的模式进行解释,告警抑制、告警压缩、告警处理等概念都是可以在CEP的规则模式下进行抽象与对应。 通过CEP的理论基础,帮助我们通过结构化解析IT系统中的 “数据噪声”,将孤立事件转化为可行动的洞察,为告警管理的建设提供支撑,助力企业构建 “监控-分析-响应” 的闭环自动化体系。

    57010编辑于 2025-06-16
  • 来自专栏深度学习进阶

    AIOps质量#Incident#检测:基于告警事件的实时故障预测

    ; 2)通过多实例学习(multi-instance learning)来区分有用告警和噪音告警; 3)基于特征工程提取出的特征,使用XGBoost进行异常识别; 4)将故障预测结果反馈给用户,并采用LIME 特征提取 文本特征:采用LDA(Latent Dirichlet Allocation)来提取文本特征; 统计特征:告警量【总告警量、不同严重程度的告警量、不同类型(应用、数据库、内存、中间件、网络、硬件等 )的告警量】、窗口时间【hour of the day、工作日or周末、day of the week、是否business hour等等】、告警的平均间隔时间【窗口内的告警是否频繁】 多实例学习过滤噪音告警 eWarn从每个实例窗口中提取特征,再将观测窗口内的多实例窗口特征聚合成包,如果实例窗口内没有太多有用的告警,聚合过程中会给其分配更低的权重。 Over-sampling TEchnique)平衡正负样本,再使用XGBoost进行训练 LIME模型可解释性 报告实例如下,第二部分的特征贡献是有LIME中的线性模型计算的权重,越重要的特征可能与预测事件的根本原因越相关

    89310编辑于 2022-11-28
  • 来自专栏DevOps

    基于n8n和LLM的告警分析探索

    3 将大的告警列表转为逐个item,然后循环发给deepseek(或者其它LLM也可以)4 LLM将分析的结果存到本地文件(因为返回的内容可能比较多,可能超过IM工具message阈值),然后将本地文件上传到 大致代码如下:访问alertmanager alert接口http://192.168.31.181:9093/api/v2/alerts筛选出非屏蔽状态的告警清单的代码如下// 获取所有输入告警项const state; // 只保留 state 存在且不等于 "suppressed" 的告警 return state && state ! item 的 json 字段 };});// 返回多个 item(n8n 会自动展开)return resultItems;将LLM生成的结果写到本地文件中上传文件到oss这里稍微费事的是将LLM返回的内容写到文件中 于是改为使用shell命令的方式,在n8n的机器上写个shell脚本,如下:IM通知带上oss链接

    20710编辑于 2025-11-30
  • 来自专栏AI+运维:智能化运维的未来

    运维告警不是“玄学”:聊聊怎么用机器学习优化事件关联分析

    运维告警不是“玄学”:聊聊怎么用机器学习优化事件关联分析如果你做过运维,估计都经历过一个痛苦瞬间:凌晨三点被电话叫醒,告警短信铺天盖地,一眼望去像是“核弹爆炸”,但最后排查发现只是一个小小的网络抖动。 一、问题的本质:告警事件本身运维系统里,一个小问题可能会引发连锁反应:数据库连接失败 → 应用报错 → 监控系统 CPU 告警 → 用户反馈延迟高。如果你只是按顺序处理这些告警,很可能会被带偏。 这就是 事件关联分析(Event Correlation Analysis) 的核心目标:在一堆杂乱无章的告警里,快速找到“根因事件”,过滤掉冗余噪声。 四、Python 示例:用机器学习做事件聚类假设我们有一份告警日志,字段包括:时间、告警类型、设备、信息。我们想看看哪些告警是高度相关的,可以聚成一类。 五、现实场景里的玩法机器学习在运维事件关联分析里,可以干这些:告警降噪聚类、分类,把几百条“跟风告警”压缩成一条核心事件。根因分析用时序模型(比如 LSTM)来预测“谁先触发”,从而定位可能的根因。

    28910编辑于 2025-09-07
  • 来自专栏嘉为动态

    【AIOps探索】智能化时代,告警事件的压缩与定位如何实现?

    下面对告警的常见问题做简单概括: 告警是什么? 告警是运维软硬件发生特定事件后的事件通报;通过监控中心进行实时监控,并对告警事件进行采集存储。 为什么需要告警规约和故障定位? 告警分段:将告警事件进行划分处理,把告警事件划分至一个时间窗口内;由于告警事件发生的告警关键内容具有较大相似性,需要在时间分段基础上计算本文相似度,对场景进行分段。 关联挖掘:采用告警上下文关联和告警内容关联两者结合挖掘告警事件的关联关系,此挖掘步骤可获得告警事件两两之间的拓扑关系。 在告警场景中,相比其他两种算法, Louvain算法能更有效地对告警事件分组划分。 社区匹配:将处理后的告警事件与离线学习的结果进行社区匹配,若匹配成功,则将该告警事件划分至该社区内;若匹配失败,则将该告警事件与经过离线学习后的告警事件进行文本相似度计算,取文本相似度最大的告警所在的社区作为该告警事件的社区

    1.5K20发布于 2021-11-12
  • 来自专栏程序员备忘录

    prometheus告警

    在讲解prometheus的时候我们说其具有告警的特征,也就是prometheus在收集监控数据的时候会根据规则判断相应指标是否达到了告警上线然后使用推送的方式进行告警。 但是要明确的一点是prometheus的仅仅是用来收集和查询监控数据的,要让我们的prometheus具有告警功能还需要prometheus体系的另一个组件altermanger,这块我们大概的讲解一下 主要用来管理告警信息发送的规则,也就是说给谁发,用那种方式。 这块作者简单测试了一下监控mysql的线程数的告警。首先配置一下prometheus的数据收集的规则和push告警信息的地址。 rules: - alert: "连接数报警" expr: mysql_global_variables_mysqlx_max_connections > 90 #连接数大于90就告警 并在prometheus的alter栏目中查看告警是否触发。发现已经触发了告警配置。 在配置好prometheus的告警之后,我们需要配置altermanager的告警信息路由规则。

    1K10编辑于 2022-08-11
  • 来自专栏首富手记

    prometheus 告警

    prometheus 告警 1, prometheus 告警简介 告警能力在Prometheus的架构中被划分成两个独立的部分。 : 告警名称:用户需要为告警规则命名,当然对于命名而言,需要能够直接表达出该告警的主要内容 告警规则:告警规则实际上主要由PromQL进行定义,其实际意义是当表达式(PromQL)查询结果持续多长时间( 集成企业微信 - name: 'wechat' wechat_configs: - send_resolved: false #恢复是否发送消息 corp_id: 'wwde5d94e8b21c9678 =""}) >=8 #当容器数量大于等于 8 的时候告警 for: 1m labels: docker: number annotations: summary 现在默认是 15s 2, 然后抓取的值之后根据evaluation_interval的指标来评估报警规则,默认是 15s 3, 当报警表达式满足时,(对于我们来说就是 docker 容器的数量大于等于 8

    6.9K00发布于 2020-02-07
领券