首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏云原生搬运工

    【TKE】 配置事件告警实践

    操作场景对集群中比较关注的事件信息设置告警,以便快速感知该事件发生情况。操作步骤事件告警依赖 CLS 日志告警功能,所以需要先开启集群事件存储,参考 开启事件存储。2. 选择导航栏左侧运维中心 > 日志管理 > 事件日志,进入“事件检索”页面。通过事件仪表盘检索已有的事件样例,参考 全局检索 。 比如我们要想告警原因为 "NotTriggerScaleUp"(Pod Pending 没有触发节点池扩容事件) 的事件数量告警 ,我们可以在 交互模式 下, 添加筛选条件 event.reason 为 在 CLS 告警策略 界面设置告警配置。根据第 2 步生成的查询语句创建告警配置,如下图:图片触发条件语法参考:触发条件语法。4. 根据帮助文档配置告警对象相关信息后保存,如下图:图片上述第3、4步配置详情和告警测试请参考 CLS 监控告警文档。

    89962编辑于 2023-02-21
  • 来自专栏Tencent Serverless 官方专栏

    事件总线能力升级,联动云上事件告警

    目前,EventBridge 正式支持事件告警能力,仅需几步配置,即可实现业务告警的自动推送。 01. 方案简介 基于 EventBridge 事件总线的告警推送链路如下,业务方主动上报告警事件给到 EventBridge,用户通过配置事件的匹配规则,完成告警事件的筛选,并通过不同投递目标的配置完成消息的进一步处理 告警规则配置 以 CVM 告警配置为例,您可以选择指定的事件告警类型,也可以选择全部告警事件,从而筛选具体的告警事件。 3. 日志存储 将您的告警事件投递至默认的事件总线日志集,方便您对已投递的告警事件随时进行追溯。 03. 能力拓展 如果您需要对告警事件进行进一步分析和处理,可以将事件投递至云函数,在函数代码里实现相关逻辑设计,如下图,基于云函数的能力,您可以实现告警消息处理架构的更多能力拓展,例如: 提取告警事件详情,组织消息文案

    94950发布于 2021-10-25
  • 来自专栏腾讯云容器运维

    TKEEKS多集群事件日志如何采集并配置事件告警

    对于warn级别的异常报错事件,不能告警提示。 为了能更好的检索日志,并配置事件日志告警,下面我们通过阿里的开源组件kube-eventer来实现对tke/eks多集群的事件日志采集。 并配置下事件告警发送到钉钉。 ,表示只发送Warning级别的事件告警告警格式为markdown,同时配置下label,第一个label为集群id,第二个是对应机器人设置的关键字。 这里只配置了一个集群,如果有多个集群配置多个索引即可,当然,也可以配置为一个索引,检索的时候通过集群名称来检索对应集群的事件日志即可。 6. 钉钉查看告警 从上面的检索看,pod的事件日志是一条Warning类型,这里到钉钉群里看下,是否有这条事件告警,如果有收到告警,则说明告警配置正常 image.png 告警群里收到了事件告警,说明集群的告警配置正常

    1.7K100编辑于 2022-05-11
  • 来自专栏betasec

    威胁事件告警分析技巧及处置(二)

    0x02期望效果 看完本文后,您能学到: >常见告警攻击特征识别 > 低危告警攻击事件忽略 > 研判告警攻击是否误报 > 复杂告警攻击Pcap取证 > 验证告警攻击是否成功 0x03webshell后门特征 de(\'7P35d1zXdSeK/0yv5f/hqgyrAKsA3nkgBFp3lChxMkFqJB9eASiAJQIoGFXgIIp/jJPuFz13esWSNdiWZMWSbMnyIFmSZccr6U7c6XSn9dyvM3QmJ72 +n88+9966twYQlO3kZX0bEoGqe8989tnz3qe3utIftPcGs3OLn/7Uemeju9OZbW7faK+v73X6/WZrZmU5Pfdweu6J5nJ87sTZ8yvZiZPp6fBU2rxUrdHZubq125YK 例如产生了暴力破解告警,同时发现相关的登录成功告警,则攻击成功。 基于不同告警日志的关联判断攻击成功与否。 例如产生了永恒之蓝漏洞利用的告警,同时发现漏洞利用成功的反连行为的告警,则说明永恒之蓝漏洞利用成功;或者产生了redis未授权写ssh密钥的行为,且后面有登录ssh的行为也基本可判断为攻击成功,但是具体与否还需要登录服务器进行查看

    3.1K20发布于 2020-09-23
  • 来自专栏网络安全

    6个步骤消除SOC告警倦怠

    他们的工作不仅技术含量高、风险高,而且重复性极强,要处理不断涌现的警报和事件。 消除 SOC 分析师倦怠的 6 个简单步骤为了使 SOC 顺利运营,领导者必须采取积极主动的措施来减少倦怠并提高保留率。 以下是减少分析师倦怠的 6 个关键步骤:自动警报分类和调查残酷的现实是,根本没有足够的人力分析师来处理当今 SOC 中充斥的大量警报。 这是非常宝贵的,因为人工智能不仅仅处理工作,它还通过生成特定事件的遏制和补救指令来指导分析师。 它可以请求批准采取行动或运行补救工作流程,从而使分析人员能够管理关键事件,而无需在停机期间陷入漫长而乏味的调查。

    45110编辑于 2024-10-11
  • 来自专栏betasec

    威胁事件告警分析技巧及处置(一)

    0x02期望效果 看完本文后,您能学到: >常见告警攻击特征识别 > 低危告警攻击事件忽略 > 研判告警攻击是否误报 > 复杂告警攻击Pcap取证 > 验证告警攻击是否成功 0x03通用攻击关键特征 在设备上产生的告警 通过这些字段我们可以进行事件的研判,但是就我个人而言,不必执着于告警名称,如果这些字段中包含了一些通用的攻击特征,那么我可判断为是真实攻击,然后再进行下一步确定是否是自己人员进行安全测试,是否需要溯源等下一步的工作计划 shadow/ c:\boot.ini/ C:/Windows/system.ini、/windows/win.ini ../../../../../ 若是只有一个且后面是图片类型 pdf类型那需结合其他事件进行综合判断

    3.7K42发布于 2020-09-23
  • 来自专栏腾讯云可观测专栏

    云监控「事件告警」相关功能即将下线通知。

    云监控「事件告警」相关功能将于2021年12月31日正式下线,相关能力将由「事件总线」承载。 本次变更仅涉及云监控事件告警部分功能,其它能力保持不变。迁移到事件总线后与现有事件告警体验一致。 为保证您的事件相关服务可以正常使用,您可开通「事件总线」。点击“阅读原文”参考「一键迁移文档」,可将云监控侧存量告警策略与推送目标一键迁移至事件总线。同时,请您手动在事件总线启用事件告警规则。 事件总线产品在原有功能上新增规则匹配、自定义事件集、多目标投递等特性。想要了解更多关于「事件总线」产品,可扫描下方二维码查看产品文档。 扫码了解事件总线 感谢您对腾讯云的信赖与支持!

    72130编辑于 2021-12-15
  • 来自专栏运维开发故事

    Kubernetes中的事件收集以及监控告警

    在实际中,我们对Kubernetes事件还有其他的需求,比如: 希望对异常的事件告警处理; 希望查询更长事件的历史事件; 希望对集群事件进行灵活的统计分析; 为此,我们需要单独对Kubernetes事件进行收集 使用kube-eventer进行事件告警 kube-eventer的告警通道可以是企业微信、钉钉以及webhook。 再比如,如果不想产生非常多的告警风暴,只发送某些特定原因的告警,比如系统OOM的事件,可以增加reason=SystemOOM等待。 当kube-eventer的Pod启动完成后,企业微信即可收到满足条件的事件告警,比如: 使用kube-event-exporter收集集群事件 上面使用kube-eventer进行事件告警,本质上并没有存储历史事件 在企业中还可以对其进行二次开放以将功能更丰富,比如支持对事件告警增加开关,可以任意开启或者关闭某个事件告警

    1.2K20编辑于 2024-04-10
  • 来自专栏后端技术学习

    DolphinScheduler中处理任务告警事件相关核心思路

    处理任务/告警/事件等的套路。 触发源自于相关工作流和task处理的事件产生的告警信息,从而实现对应的event事件,从而进行告警,而告警是通过启动告警模块,进行队列的put和take处理,从而实现对应各个渠道的对接告警的。 告警信息的放入: eventPendingQueue.put(alert) 什么时候会put? 存在告警数据的时候会put。 从这些监听事件中,我们可以看到这里的监听事件主要和工作流处理和Task处理监听有关,也即和我们的task和workflow有关,也即我们最核心的业务处理。 可以根据这些事件找到对应的事件找到对应的业务逻辑处理。 eventPendingQueue.take()的地方在哪里?

    78610编辑于 2024-07-24
  • 来自专栏一只想做全栈的猫

    【Angular6+】事件绑定

    Angular6+ 事件绑定 临近毕业开始了第二段实习,因为项目需求,技术栈从Vue转到Angular,才发现Angular已经到7了????? $event和事件处理语句 事件对象的形态取决于目标事件。 如果目标事件是原生 DOM 元素事件, \$event就是 DOM 事件对象,它有像 target 和 target.value 这样的属性。 通过@HostListenr 把事件绑定在宿主监听器上 把一个事件绑定到一个宿主监听器,并提供配置元数据。 使用 EventEmitter 实现自定义事件(父子组件间事件传递) 后面再起一章单独讲 Angular 的组件通信 子组件触发事件 Output

    <img src="{{heroImageUrl

    2.2K30发布于 2019-05-26
  • 来自专栏深度学习进阶

    AIOps异常检测(二):基于告警事件的实时故障预测

    本文主要介绍一种实时故障预测的文章《Real-Time Incident Prediction for Online Service Systems》,使用告警数据来预测未来一段时间是否会发生真实故障。 ; 2)通过多实例学习(multi-instance learning)来区分有用告警和噪音告警; 3)基于特征工程提取出的特征,使用XGBoost进行异常识别; 4)将故障预测结果反馈给用户,并采用LIME 特征提取 文本特征:采用LDA(Latent Dirichlet Allocation)来提取文本特征; 统计特征:告警量【总告警量、不同严重程度的告警量、不同类型(应用、数据库、内存、中间件、网络、硬件等 )的告警量】、窗口时间【hour of the day、工作日or周末、day of the week、是否business hour等等】、告警的平均间隔时间【窗口内的告警是否频繁】 多实例学习过滤噪音告警 Over-sampling TEchnique)平衡正负样本,再使用XGBoost进行训练 LIME模型可解释性 报告实例如下,第二部分的特征贡献是有LIME中的线性模型计算的权重,越重要的特征可能与预测事件的根本原因越相关

    2.9K41发布于 2021-09-15
  • 来自专栏charlieroro

    redis 6源码解析之 事件

    redis的事件分为:文件事件和时间事件。文件事件是基于I/O的事务处理,时间事件则是基于时间点的事务处理。 redis事件支持的多路复用包含四个实现:ae_epoll.c,ae_evport.c,ae_kqueue.c,ae_select.c 基本处理流程如下,源代码解析参见ae.c和ae.h以及ae_epoll.c

    41430发布于 2020-04-15
  • 来自专栏charlieroro

    redis 6源码解析之 事件

    redis的事件分为:文件事件和时间事件。文件事件是基于I/O的事务处理,时间事件则是基于时间点的事务处理。 redis事件支持的多路复用包含四个实现:ae_epoll.c,ae_evport.c,ae_kqueue.c,ae_select.c 基本处理流程如下,源代码解析参见: ae.c和ae.h以及ae_epoll.c

    40930发布于 2020-04-24
  • 来自专栏WeOps

    告警管理的智能引擎:复杂事件处理(CEP)实战解析

    直达原文:告警管理不止降噪:如何从零散事件中挖出关键信息复杂事件处理(CEP,Complex Event Processing)是一项针对动态事件流进行实时分析、复杂模式识别及关联性推理的技术,广泛适用于处理海量实时数据 ,而这种技术同样非常适用于IT运维中的告警管理场景。 (1)下面举一个例子“若Web服务器发生‘连接超时’告警(原子事件),且负载均衡器同步出现‘请求转发失败’日志(原子事件),则触发‘服务链路故障’复合事件”。 我们可以惊喜的看到,嘉为蓝鲸告警中心的逻辑可以按照CEP的模式进行解释,告警抑制、告警压缩、告警处理等概念都是可以在CEP的规则模式下进行抽象与对应。 通过CEP的理论基础,帮助我们通过结构化解析IT系统中的 “数据噪声”,将孤立事件转化为可行动的洞察,为告警管理的建设提供支撑,助力企业构建 “监控-分析-响应” 的闭环自动化体系。

    57110编辑于 2025-06-16
  • 来自专栏深度学习进阶

    AIOps质量#Incident#检测:基于告警事件的实时故障预测

    ; 2)通过多实例学习(multi-instance learning)来区分有用告警和噪音告警; 3)基于特征工程提取出的特征,使用XGBoost进行异常识别; 4)将故障预测结果反馈给用户,并采用LIME 特征提取 文本特征:采用LDA(Latent Dirichlet Allocation)来提取文本特征; 统计特征:告警量【总告警量、不同严重程度的告警量、不同类型(应用、数据库、内存、中间件、网络、硬件等 )的告警量】、窗口时间【hour of the day、工作日or周末、day of the week、是否business hour等等】、告警的平均间隔时间【窗口内的告警是否频繁】 多实例学习过滤噪音告警 eWarn从每个实例窗口中提取特征,再将观测窗口内的多实例窗口特征聚合成包,如果实例窗口内没有太多有用的告警,聚合过程中会给其分配更低的权重。 Over-sampling TEchnique)平衡正负样本,再使用XGBoost进行训练 LIME模型可解释性 报告实例如下,第二部分的特征贡献是有LIME中的线性模型计算的权重,越重要的特征可能与预测事件的根本原因越相关

    89310编辑于 2022-11-28
  • 来自专栏数据科学(冷冻工厂)

    Python 异步: 什么是事件循环 ?(6

    asyncio 程序的核心是事件循环。在本节中,我们将花点时间看一下 asyncio 事件循环。 1. 什么是 Asyncio 事件循环 事件循环是用于在单个线程中执行协程的环境。 事件循环是一种常见的设计模式,并且由于在 JavaScript 中的使用而在最近变得非常流行。 事件循环,顾名思义,就是一个循环。 有用于创建和访问事件循环的低级函数。asyncio.new_event_loop() 函数将创建一个新的事件循环并返回对它的访问。 什么是事件循环对象 事件循环作为 Python 对象实现。事件循环对象定义了事件循环的实现方式,并提供了与循环交互的通用 API,定义在 AbstractEventLoop 类中。 为什么要访问事件循环 为什么我们要访问 asyncio 程序之外的事件循环? 我们可能希望从正在运行的 asyncio 程序外部访问事件循环的原因有很多。 监控任务的进度。 发布任务并从中获取结果。

    98320编辑于 2023-02-27
  • 来自专栏数据科学(冷冻工厂)

    Python 异步: 什么是事件循环 ?(6

    asyncio 程序的核心是事件循环。在本节中,我们将花点时间看一下 asyncio 事件循环。1. 什么是 Asyncio 事件循环事件循环是用于在单个线程中执行协程的环境。 我们很少需要与 asyncio 程序中的事件循环交互,而是使用高级 API。尽管如此,我们还是可以简单地探讨一下如何获取事件循环。2. 有用于创建和访问事件循环的低级函数。asyncio.new_event_loop() 函数将创建一个新的事件循环并返回对它的访问。... 什么是事件循环对象事件循环作为 Python 对象实现。事件循环对象定义了事件循环的实现方式,并提供了与循环交互的通用 API,定义在 AbstractEventLoop 类中。 为什么要访问事件循环为什么我们要访问 asyncio 程序之外的事件循环?我们可能希望从正在运行的 asyncio 程序外部访问事件循环的原因有很多。监控任务的进度。发布任务并从中获取结果。

    1.4K30编辑于 2023-02-03
  • 来自专栏AI+运维:智能化运维的未来

    运维告警不是“玄学”:聊聊怎么用机器学习优化事件关联分析

    运维告警不是“玄学”:聊聊怎么用机器学习优化事件关联分析如果你做过运维,估计都经历过一个痛苦瞬间:凌晨三点被电话叫醒,告警短信铺天盖地,一眼望去像是“核弹爆炸”,但最后排查发现只是一个小小的网络抖动。 一、问题的本质:告警事件本身运维系统里,一个小问题可能会引发连锁反应:数据库连接失败 → 应用报错 → 监控系统 CPU 告警 → 用户反馈延迟高。如果你只是按顺序处理这些告警,很可能会被带偏。 这就是 事件关联分析(Event Correlation Analysis) 的核心目标:在一堆杂乱无章的告警里,快速找到“根因事件”,过滤掉冗余噪声。 四、Python 示例:用机器学习做事件聚类假设我们有一份告警日志,字段包括:时间、告警类型、设备、信息。我们想看看哪些告警是高度相关的,可以聚成一类。 五、现实场景里的玩法机器学习在运维事件关联分析里,可以干这些:告警降噪聚类、分类,把几百条“跟风告警”压缩成一条核心事件。根因分析用时序模型(比如 LSTM)来预测“谁先触发”,从而定位可能的根因。

    28910编辑于 2025-09-07
  • 来自专栏嘉为动态

    【AIOps探索】智能化时代,告警事件的压缩与定位如何实现?

    下面对告警的常见问题做简单概括: 告警是什么? 告警是运维软硬件发生特定事件后的事件通报;通过监控中心进行实时监控,并对告警事件进行采集存储。 为什么需要告警规约和故障定位? 告警分段:将告警事件进行划分处理,把告警事件划分至一个时间窗口内;由于告警事件发生的告警关键内容具有较大相似性,需要在时间分段基础上计算本文相似度,对场景进行分段。 关联挖掘:采用告警上下文关联和告警内容关联两者结合挖掘告警事件的关联关系,此挖掘步骤可获得告警事件两两之间的拓扑关系。 在告警场景中,相比其他两种算法, Louvain算法能更有效地对告警事件分组划分。 社区匹配:将处理后的告警事件与离线学习的结果进行社区匹配,若匹配成功,则将该告警事件划分至该社区内;若匹配失败,则将该告警事件与经过离线学习后的告警事件进行文本相似度计算,取文本相似度最大的告警所在的社区作为该告警事件的社区

    1.5K20发布于 2021-11-12
  • 来自专栏深度学习与python

    6事件驱动的架构模式

    v=7O_UC_i1XY0 6事件聚合 当你想知道整个批次的事件已经被消费时 在上半部分,我描述了在 Wix 将联系人导入到 Wix CRM 平台的业务流程。后端包括两个服务。 KVAtomicStore(例如,请求 Id 为 YYY 的导入作业 3 已经完成): Atomic Store 将生成一条新消息到 job-completed-commands 主题,键为 YYY-6, 接下来,Atomic Store 的消费者 - 生产者对将消费此消息,并增加 KV Store 主题中键 YYY-6 的已完成作业计数。   原文链接: https://medium.com/wix-engineering/6-event-driven-architecture-patterns-part-1-93758b253f47 https ://medium.com/wix-engineering/6-event-driven-architecture-patterns-part-2-455cc73b22e1 本周好文推荐 Mozilla

    3.9K20编辑于 2023-04-01
领券