首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏重归混沌

    谈谈观测

    随着这几年我对 eBPF、Prometheus 等工具的深入了解,我才逐渐意识到“可观测性”这个词背后蕴含的意义。 很早以前,我就在 Linux 上使用 /proc/、top、sar 等工具来排查问题,却从未意识到,“观测”竟然是一门独立的学问。 这也正是“可观测性”弥足珍贵的原因之一:当系统出问题时,我们可以通过系统本身提供的可观测能力,去追踪和理解到底发生了什么。 不得不佩服 Linux 的设计者们,/proc 文件系统的设计在多年以前就已体现出极强的可观测性理念。 我并不想讲怎么样实现可观测性,毕竟我不是专家。 但我想谈谈观测给了我们一个什么样的视角。 这从侧面也说明了,当我们通过观测来排查问题时,并不需要一上来就去了解整个系统的实现细节,从宏观视角就可以排查很多问题。 这一点很重要,前面铺垫了这么多,都是为了这个观点。

    9210编辑于 2026-03-25
  • 来自专栏初代庄主

    观测 CPU

    背景 通常在分析性能问题时,我们会用 `top , sar , perf` 来观测 CPU 的使用情况;多数据情况下是观测别人的程序。 如果从熟悉工具的角度来看,观测自己的程序,根据观测到的结果再结合程序源代码,对于我们掌握性能分析工具会更有帮助。 for(;;) { // 不断的查询父进程的 pid ,这个会占用 sys 空间 getppid(); } } ---- sar 看 cpu 的使用率 要观测所有 0.00 0.00 平均时间: 10 0.60 0.00 0.40 0.00 0.00 99.00 平均时间: 11

    56140编辑于 2022-05-17
  • 来自专栏深度学习与python

    作业帮服务观测之基础观测能力

    GoF 包含的 23 种 面向对象模式 塑造了一代开发者设计软件的方式。在 2010 年代,云计算引入了发布 - 订阅(pub-sub)、微服务、事件驱动工作流和无服务器模型等模式,现在大多数基于云的分布式系统都是以它们为基础的。

    24710编辑于 2025-06-08
  • 2025企业可观测产品选型实战指南:可观测是什么?可观测平台怎么选?

    “可观测性”已从技术热词落地为企业IT运维的核心能力,但仍有不少企业混淆“监控”与“可观测”的边界——监控是“被动检测已知问题”,而可观测是“主动探索未知故障”,2025年,企业IT架构愈发复杂,混合云 选择一款适配自身架构的可观测平台,成为企业保障业务连续性、降低运维成本的关键。本文先厘清可观测的核心定义与价值,再通过3款可观测平台的深度对比,结合实战选型逻辑,助力企业精准落地可观测能力。 01.可观测是什么?核心价值在哪里?1)可观测的定义可观测性是通过采集IT系统全链路数据(指标、日志、调用链、拓扑),结合智能分析技术,实现从业务异常到根因定位的全流程可视、可分析、可追溯的能力。 02.3款可观测平台对比1)嘉为蓝鲸全栈智能可观测中心核心定位面向中大型企业的全栈智能可观测平台,以“指标、日志、调用链、拓扑”全链路数据融合为基础,“业务可观测”为核心,“AI智能闭环”为驱动,覆盖从底层硬件到上层业务的全链路观测 2)腾讯云可观测平台(TCOP)核心定位腾讯云原生一体化可观测平台,深度绑定腾讯云生态,聚焦云原生全链路观测场景,主打“云资源联动+轻量化部署”。

    33810编辑于 2025-11-19
  • 蓝鲸观测平台:统一观测数据关联模型探索

    前 言本文为蓝鲸观测平台数据模块负责人 在 蓝鲸智云 和 DeepFlow 社区 合办的第六场 eBPF 零侵扰可观测性 Meetup 上的演讲,原来题为根因定位关键:统一观测数据关联模型探索概 述根因分析高度依赖可关联的观测数据 好,我们先来讲一下可观测整个发展的历程。 第一部分是在可观测出现之前,我称之为传统监控以及现在经常说的可观测。传统监控和可观测的区别,其实我总结下来可能就是两个不一样的地方,一个是被动,一个是主动。什么叫被动呢? 第二部分就是我们蓝鲸观测平台已经做了好几年了,在这几年的过程中,我们基于整个观测场景搭建了那么一套观测体系,有常见的三大支柱,我们现在加了一根第四根支柱,就是事件那块,像指标、Logs、Trace 等等 如果这个模型不是一个时序的,只是一个实时的,现在这个时候就已经不存在所谓的观测的意义了。所有的观测,都是当下以及未来,甚至以前都是需要在观测整个体系里面去表现的。

    99110编辑于 2024-09-27
  • 来自专栏云云众生s

    LLo11yPop:英伟达和Grafana正在开发用于可观测性的LLM

    译自 LLo11yPop: Nvidia, Grafana Working on LLM for Observability,作者 B Cameron Gain。 另一个项目利用遥测数据为 大型语言模型 和 AI 应用程序创建 可观测性 接口。 正如 Erickson 在 9 月 24 日的主题演讲中所述,英伟达依靠 Grafana Cloud 来提供可观测性支持。 — BC Gain (@bcamerongain) 2024 年 10 月 3 日 其中一个更有趣的项目——名为 LLo11yPop——是一个用于可观测性的 LLM。 在使用多 LLM 复合模型的架构设计中,针对 GPU 集群管理的观测代理框架,代理管理观测框架的编排和任务执行。这些由所谓的 OODA 循环进行编排——观察、定向、决策、行动。

    43410编辑于 2024-10-25
  • 来自专栏charlieroro

    Istio可观测

    Istio可观测性 Istio的可观测性包括metrics,日志,分布式链路跟踪以及可视化展示。 目录 Istio可观测性 Prometheus 配置说明 Option 1:合并metrics Option 2:自定义抓取metrics配置 TLS设置 总结 Jaeger 概述 跟踪上下文的传递 使用

    3.2K20发布于 2020-09-07
  • 来自专栏云原生技术呱呱

    观测建设总结

    一 可观测架构1 可观测数据处理架构设计流水日志日志index以及检索(es)监控指标(组件模调+业务指标)告警指标(参考监控指标,分别划分不同场景的阈值+告警级别+处置方法=sla)处理架构选型推荐开源 2 系统可观测白盒:描绘出系统架构,以及系统的数据流链路,在数据链路上关键处打点上报日志+指标3 用户可观测黑盒:决定以什么方式告知用户异常(push? 二 可观测前置条件1 服务状态感知 (client视角,结构化日志、模调指标)2 服务状态采集(数据server视角,es,普米)3 展示平台(grafana,es)4 告警=事件告警(无状态)+指标告警 (有状态)三 观测维度1 业务观测流量时延错误饱和度(特定状态)2 资源监控系统自身第三方依赖、中间件3 性能监控(业务定义的关注性能)4 租户状态跟踪(大客户监控面板)5 全景监控大盘

    45530编辑于 2022-07-14
  • 来自专栏charlieroro

    BCC(可观测性)

    BCC(可观测性) 目录 BCC(可观测性) 简介 动机 安装 安装依赖 安装和编译LLVM 安装和编译BCC windows源码查看 BCC的基本使用 工具讲解 execsnoop opensnoop btrfs, xfs, zfs*) biolatency biosnoop cachestat tcpconnect+tcpaccept+tcpretrans runqlat profile BCC的开发 可观测性 hello_perf_output.py Lesson 8. sync_perf_output.py Lesson 9. bitehist.py Lesson 10. disklatency.py Lesson 11 ************| 512 -> 1023 : 1 |****************************************| Lesson 11 Copyright (c) 2015 Brendan Gregg. # Licensed under the Apache License, Version 2.0 (the "License") # # 11

    3.8K30发布于 2020-07-09
  • 来自专栏Elastic Stack专栏

    Elastic可观测解决方案8.9:发布可观测AI助手

    Elastic可观测解决方案团队非常高兴地宣布,在8.9版本中发布Elastic可观测AI助手的初始(技术预览版)版本。 Elastic可观测AI助手将生成式AI融入以下用户工作流程中:针对日志信息的Elastic AI助手:提供使用生成式AI查找日志消息详细信息的含义并帮助您查找相关消息的能力视频内容针对APM错误的Elastic

    1.6K51编辑于 2023-07-29
  • 来自专栏Tencent Serverless 官方专栏

    Serverless 可观测性升级,云函数支持应用性能观测 APM

    云函数 + APM,进一步提升 Serverless 可观测性 Serverless 产品免运维、弹性扩缩容的产品特性,意味着由平台来进行请求的调度、资源的分发,也意味着用户在进行问题定位、异常排查时需要依赖平台提供的可观测性功能 对于具有更细粒度、更定制化的可观测性诉求的场景,近日 云函数 SCF 与腾讯云应用性能观测 APM 团队合作,推出了云函数应用性能观测功能,现已正式发布,访问 SCF 控制台启用 APM 配置即可体验。 丰富的指标监控,打造多个函数应用级全局观测 SCF 与 APM 集成,将可观测性的重点从单个系统转为整体系统。 在 Serverless 场景下,即从对 单个函数 的观测转为对  Serverless 应用(包含多个函数及其他服务) 的全局观测,通过丰富的指标监控采集分析、依赖拓扑图、调用链分析、日志分析等能力, 在页面上方选择地域,单击需要进行应用性能观测配置的函数名。 3. 在“函数配置”页面,选择右上角的编辑,勾选启用应用性能观测。(首次启用请按照控制台引导完成授权流程) 4.

    1.1K20编辑于 2021-12-18
  • 来自专栏AIOps

    金融行业可观测案例:业务交易链路可观测建设指南

    直达原文:金融行业可观测案例:业务交易链路可观测建设指南01.引言:金融业可观测建设的迫切性在金融行业,业务系统是企业的生命线(如银行支付、证券交易等场景),任何故障都可能引发重大损失。 可观测性由此成为金融运维的核心能力——它需覆盖从业务交易链路到基础设施的全栈观测,实现从“被动告警”到“主动洞察”的转型。 3)建设路径与挑战(1)分阶段实施可观测体系第一年(基础可观测):统一日志规范(如标准化交易日志字段)、补齐APM调用链追踪;第二年(因果可观测):融合指标、日志、追踪数据,构建业务拓扑(KBOM支持日志 02.结语:可观测性驱动金融业务韧性金融行业的可观测建设需以业务连续性为最终目标。 未来,随着大模型技术在可观测领域的深化应用(如嘉为蓝鲸“小鲸观测助手”),金融运维将从“人工排障”转向“智能决策”,为业务稳定运行构建更强韧性。

    35010编辑于 2025-06-12
  • 来自专栏OI

    YbtOJ 755「分治」变量观测

    YbtOJ 755「分治」变量观测 题目链接:YbtOJ #755 小 A 有 n 个变量,分别为 x_{1\sim n}。 接下来依次发生了 q 次事件,分为两种形式: 1 t k q[1] q[2] ... q[k]:假设这是第 p 次 1 操作,则设置一个编号为 p 的观测员,直到 x_{q_1},x_{q_2},\cdots x_{q_k} 与当前相比变化总值大于等于 t 时结束观测。 (保证同一个观测员的 q_{1\sim k} 各不相同) 2 i v:给 x_i 加上 v。你需要输出所有在这次操作结束观测观测员编号。 强制在线。 Solution 考虑将每个人观测时间分为 k 份,每份 \lceil \frac tk \rceil,丢到每个变量对应的 set 里。

    49320编辑于 2022-09-19
  • 来自专栏GIS与遥感开发平台

    巴基斯坦洪水(Landsat观测

    最近巴基斯坦有了洪灾,就想用遥感数据看一下怎么回事。 数据使用的是GEE中的Landsat数据,Landsat8没有在灾区过境,幸亏上一年发射了Landsat9,对灾区进行了成像。下面图中蓝色的是识别为水体的区域。 首先用MODIS数据(MOD09GA)看了一下灾区的范围,主要是在巴基斯坦的南部。 MODIS获取的水体范围 之后又看了一下Landsat9的水体范围,基本上都是这一块。 Landsat9获取的水体范围 淹没区域主要是集中在印度河流域,这应该是一个冲积平原。地形图如下: 基本上这

    57550编辑于 2022-12-03
  • 来自专栏云云众生s

    重新思考可观测

    如今,“可观测性”已经成为首选方法,可观测性项目随处可见。 但是可观测性并未实现其承诺。许多组织已经尝试了各种规模的环境。 在许多情况下,可观测性项目产生了大量数据和认知过载,但没有对系统可靠性带来明显改变。 此外,实现可观测性需要进行大规模的集成工作: 开发人员必须检测他们的代码以发出正确的跟踪、指标和日志,使系统变得可观察。检测仍然是一个艺术。 聪明的用户会知道这只是提供可观测性的不同方式。但我们强烈认为可观测性的未来在于提供更全面和准确的用户体验测量。CUJ 和特定旅程的 SLO 代表了从系统中心指标向更以用户为中心的方法迈出的重要一步。 通过接受关键用户旅程和特定旅程 SLO 等概念,我们可以更好地将可观测性实践与提供卓越用户体验的终极目标对齐。

    21010编辑于 2024-03-28
  • 来自专栏Forrest随想录

    聊聊可观测性Observability

    自打去年以来,可观测性Observability这个概念又非常的火,按照我的感受,在运维领域,这个概念是近两年即AIOps之后,热度最高的一个了。 无论是国内还是海外的运维相关的公司,都给了自己一个新的定位,就是可观测性平台,或者叫做可观测云,相对应的产品也是层出不穷。 所以,我观测了很久Observability之后,打算还是从实际情况入手来聊聊这个概念,看看可观测这个东西到底包含哪些内容?它们之间是什么关系? 通常我们在IT领域看到的关于可观测性概念的介绍,都会提到它是Metrics, Traces以及Logs的结合,通常会以下图来呈现。 这里我找了一个Splunk的Demo,我们可以直观的感受一下,可观测性的实际效果是怎样的。 大家看完这个示意,对可观测性就有更直观的理解了,不做赘述。

    1.2K30编辑于 2022-03-25
  • 企业应用观测中枢建设

    企业应用观测建设路径面对上述挑战,企业常常会踏上构建可观测性工具体系的征途,而在融合ITIM基础监控之后,针对应用的可观测能力补充往往在中间阶段进行建设落地。 针对应用的可观测体系,首先需要建设狭义上的应用监控工具(APM),通过请求跟踪(Trace)标记,实现应用架构可视化、应用流量指标化、请求记录数据化;在观测数据补足后,应用观测进入下一阶段建设目标——数据联动 完整可观测体系的结构与应用可观测的占位企业应用观测建设思路总体定位链路追踪的工具,即前面提到的APM,因为其自动化生成了一系列数据之间的关联关系,在整个可观测体系中是一个类似中枢的存在。 我们应当将APM尽可能和各类其他观测工具做串联打通,通过APM建立起基于业务实际请求流量的“桥梁”,有目标性地拉通各个观测工具和不同类型的观测数据,实现完整有效的观测效果。 结语以上,我们介绍了比较成熟理想的企业应用观测中枢建设方案。总的来说,应用观测领域目前尚处于快速发展、落地探索阶段,各企业在建设应用观测中枢的过程中不应操之过急。

    43410编辑于 2025-06-17
  • 来自专栏可观测系列

    观测系列——大模型在 IT 运维可观测性的应用

    直达原文:【可观测系列】大模型技术在可观测领域的应用01.前言随着云计算、分布式、微服务等前沿技术的广泛应用,现代IT系统架构已经从传统的单体结构演进到分布式和云原生架构。 02.大模型在可观测领域的应用借助嘉为蓝鲸底座LLMOps开发平台,企业能够快速对接异构大模型,并利用其提供的智能体开发框架,结合私域知识和观测流数据,实现智能化运维场景的快速扩展。 03.场景说明小鲸观测助手,是基于嘉为蓝鲸LLMOps平台,结合嘉为蓝鲸全栈智能观测中心,自主研发的一款基于大模型的观测平台辅助分析工具。 1)脚本插件自动编写大模型可解析自然语言指令自动生成适配Prometheus格式的监控脚本、Exporter等插件,嘉为蓝鲸全栈智能观测中心无缝兼容Prometheus 插件生态,通过小鲸观测助手,可在服务器性能 实现效果如下图:04.前景展望通过上述可观测性与大模型结合的应用场景,已经充分展现了大模型在运维领域的巨大潜力。展望未来,大模型的作用将不再局限于作为观测的辅助工具,而是逐步迈向更高层次的智能化阶段。

    93610编辑于 2025-04-09
  • 来自专栏云云众生s

    涉及业务KPI的可观测性还是非可观测性吗?

    观测性旨在让每一位工程师能够根据对所有系统和应用程序的数据分析,主动地对工作任务进行优先级排序。 当我们想到“可观测性”时,我们大多数人将其定义为“指标、日志和跟踪”。并非如此。 换句话说,可观测性不仅仅是收集和整理数据集。它不仅仅是关于警报、关联和正常运行时间。 可观测性是关于理解各个用户体验的一切。 具体到可观测性的当前形式,主动性并不是基于我们的日志、指标和跟踪的前瞻性指标。 我们的可观测性供应商是否衡量了中断体验和收入损失的下游影响? 不幸的是,现在的答案是:他们没有。 我们知道可观测性需要走向何方。了解我们系统的状态只是第一步。下一步是了解我们用户体验的状态。

    27910编辑于 2024-04-01
  • 来自专栏让技术和时代并行

    什么是可观测

    观测性之所以昂贵,有两个原因: 可观测性比被观测系统至少可靠一个数量级。否则,你将继续调试你的可观察性堆栈,而不是使用它来保持你的应用程序运行。 在这篇文章中,让我们深入探讨一下可观测性:它是什么,不同类型的可观测性,以及实现可观测性在技术上意味着什么。在这篇文章的最后,你会明白为什么你应该抵制住诱惑,然后在可观测性上节省资金。 ---- 什么是可观测性 可观测性有许多名称,如监测、审计、遥测、仪器。忽略这些细微差别,所有这些词本质上的意思都是一样的:度量您的基础设施、平台和应用程序,以了解它是如何运行的。 可观测性通过测量阶段闭合反馈回路。它允许您的团队对应用程序进行快速更改,快速适应其用户基础和环境,而不会产生不必要的意外。良好的可观测性可以将凌晨2点被唤醒转换为日常检查。 总结 缺乏可观测性就像闭着眼睛开车:你不知道离灾难有多近。你开得越快,路越忙,你就越要小心。 可观测性也是一样:你越想让你的团队越快地添加功能,你就越应该在可观测性上投资。

    89420编辑于 2023-03-18
领券