首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏coderidea

    构建可观测架构,从这5个方面着手

    随着系统复杂度的提升,“可观测性”(Observability)成为架构建设的重要原则之一。那么构建一个可观测的系统架构需要做哪些工作呢? 本文将从以下5个方面介绍构建可观测架构的主要考虑: 定义指标和度量,明确关键业务指标需求 首先要确定核心业务指标,比如请求响应时间、错误率、吞吐量等。 明确指标后,就可以设计如何采集和展示这些观测数据。通过定义指标和度量,可以帮助我们了解系统的运行情况,并及时发现和解决问题。 实现告警和监控 构建可观测架构的最后一步是实现告警和监控。通过设置告警规则和监控项,可以帮助我们及时发现和解决系统中的问题。 构建一个可靠、安全、高效的可观测系统是每个架构师必备的技能。需要全面考量从遥测数据采集、处理到展示的多个环节。

    68260编辑于 2023-09-07
  • Signal #5:执行开始接管软件,界面退居为观测

    在这个过程中,几个变化开始同时出现: • CLI 的流行,本质是对“执行入口”的一次压缩 • GUI 不再承担主要操作职责,而逐渐转向系统状态的观测与干预 • 在真实需求中,问题已经不再是“AI 能不能写代码

    9100编辑于 2026-05-18
  • 来自专栏重归混沌

    谈谈观测

    随着这几年我对 eBPF、Prometheus 等工具的深入了解,我才逐渐意识到“可观测性”这个词背后蕴含的意义。 很早以前,我就在 Linux 上使用 /proc/、top、sar 等工具来排查问题,却从未意识到,“观测”竟然是一门独立的学问。 这也正是“可观测性”弥足珍贵的原因之一:当系统出问题时,我们可以通过系统本身提供的可观测能力,去追踪和理解到底发生了什么。 不得不佩服 Linux 的设计者们,/proc 文件系统的设计在多年以前就已体现出极强的可观测性理念。 我并不想讲怎么样实现可观测性,毕竟我不是专家。 但我想谈谈观测给了我们一个什么样的视角。 这从侧面也说明了,当我们通过观测来排查问题时,并不需要一上来就去了解整个系统的实现细节,从宏观视角就可以排查很多问题。 这一点很重要,前面铺垫了这么多,都是为了这个观点。

    9210编辑于 2026-03-25
  • 来自专栏初代庄主

    观测 CPU

    背景 通常在分析性能问题时,我们会用 `top , sar , perf` 来观测 CPU 的使用情况;多数据情况下是观测别人的程序。 如果从熟悉工具的角度来看,观测自己的程序,根据观测到的结果再结合程序源代码,对于我们掌握性能分析工具会更有帮助。 cpu 核心,每一秒打印一次报告,共打印 5 次,命令可以这样写。 sar -P ALL 1 5 平均时间: CPU %user %nice %system %iowait %steal %idle 平均时间: all 0.00 99.40 平均时间: 4 0.40 0.00 0.00 0.00 0.00 99.60 平均时间: 5

    56140编辑于 2022-05-17
  • 来自专栏深度学习与python

    作业帮服务观测之基础观测能力

    我将一些关键的新兴模式分成 5 个类别,当你扩展你的 AI 系统时,它们可以相互促进。 图 5:可编辑输出模式示例 迭代探索模式 永远不要假设第一次输出就能满足用户的需求。要提供“重新生成”或“再试一次”按钮,以便用户可以快速迭代。对于图像生成,同时显示多个选项。

    24710编辑于 2025-06-08
  • 2025企业可观测产品选型实战指南:可观测是什么?可观测平台怎么选?

    “可观测性”已从技术热词落地为企业IT运维的核心能力,但仍有不少企业混淆“监控”与“可观测”的边界——监控是“被动检测已知问题”,而可观测是“主动探索未知故障”,2025年,企业IT架构愈发复杂,混合云 选择一款适配自身架构的可观测平台,成为企业保障业务连续性、降低运维成本的关键。本文先厘清可观测的核心定义与价值,再通过3款可观测平台的深度对比,结合实战选型逻辑,助力企业精准落地可观测能力。 02.3款可观测平台对比1)嘉为蓝鲸全栈智能可观测中心核心定位面向中大型企业的全栈智能可观测平台,以“指标、日志、调用链、拓扑”全链路数据融合为基础,“业务可观测”为核心,“AI智能闭环”为驱动,覆盖从底层硬件到上层业务的全链路观测 2)腾讯云可观测平台(TCOP)核心定位腾讯云原生一体化可观测平台,深度绑定腾讯云生态,聚焦云原生全链路观测场景,主打“云资源联动+轻量化部署”。 OpenTelemetry构建全链路追踪,兼容Jaeger、Skywalking等开源生态;与腾讯云CVM、数据库等服务深度联动,部署效率提升40%,千万级指标并发处理能力,轻量化采集器CPU占用率低于5%

    33810编辑于 2025-11-19
  • 蓝鲸观测平台:统一观测数据关联模型探索

    前 言本文为蓝鲸观测平台数据模块负责人 在 蓝鲸智云 和 DeepFlow 社区 合办的第六场 eBPF 零侵扰可观测性 Meetup 上的演讲,原来题为根因定位关键:统一观测数据关联模型探索概 述根因分析高度依赖可关联的观测数据 好,我们先来讲一下可观测整个发展的历程。 第一部分是在可观测出现之前,我称之为传统监控以及现在经常说的可观测。传统监控和可观测的区别,其实我总结下来可能就是两个不一样的地方,一个是被动,一个是主动。什么叫被动呢? 第二部分就是我们蓝鲸观测平台已经做了好几年了,在这几年的过程中,我们基于整个观测场景搭建了那么一套观测体系,有常见的三大支柱,我们现在加了一根第四根支柱,就是事件那块,像指标、Logs、Trace 等等 如果这个模型不是一个时序的,只是一个实时的,现在这个时候就已经不存在所谓的观测的意义了。所有的观测,都是当下以及未来,甚至以前都是需要在观测整个体系里面去表现的。

    99110编辑于 2024-09-27
  • 来自专栏charlieroro

    Istio可观测

    Istio可观测性 Istio的可观测性包括metrics,日志,分布式链路跟踪以及可视化展示。 目录 Istio可观测性 Prometheus 配置说明 Option 1:合并metrics Option 2:自定义抓取metrics配置 TLS设置 总结 Jaeger 概述 跟踪上下文的传递 使用

    3.2K20发布于 2020-09-07
  • 来自专栏云原生技术呱呱

    观测建设总结

    一 可观测架构1 可观测数据处理架构设计流水日志日志index以及检索(es)监控指标(组件模调+业务指标)告警指标(参考监控指标,分别划分不同场景的阈值+告警级别+处置方法=sla)处理架构选型推荐开源 2 系统可观测白盒:描绘出系统架构,以及系统的数据流链路,在数据链路上关键处打点上报日志+指标3 用户可观测黑盒:决定以什么方式告知用户异常(push? 二 可观测前置条件1 服务状态感知 (client视角,结构化日志、模调指标)2 服务状态采集(数据server视角,es,普米)3 展示平台(grafana,es)4 告警=事件告警(无状态)+指标告警 (有状态)三 观测维度1 业务观测流量时延错误饱和度(特定状态)2 资源监控系统自身第三方依赖、中间件3 性能监控(业务定义的关注性能)4 租户状态跟踪(大客户监控面板)5 全景监控大盘

    45530编辑于 2022-07-14
  • 来自专栏charlieroro

    BCC(可观测性)

    BCC(可观测性) 目录 BCC(可观测性) 简介 动机 安装 安装依赖 安装和编译LLVM 安装和编译BCC windows源码查看 BCC的基本使用 工具讲解 execsnoop opensnoop btrfs, xfs, zfs*) biolatency biosnoop cachestat tcpconnect+tcpaccept+tcpretrans runqlat profile BCC的开发 可观测性 0.01% 5 363 0 11776 0 0.00% 5 409 1 p 185 # trace PID 185 only profile 推荐使用strace和perf trace命令 BCC的开发 本节介绍使用Python接口进行BCC的开发,包括两部分:可观测性和网络 可观测性 Lesson 1. Hello World 执行examples/hello_world.py,并在另一个会话中执行一些命令(如ls),此时会打印"Hello,World!". # .

    3.8K30发布于 2020-07-09
  • 来自专栏Elastic Stack专栏

    Elastic可观测解决方案8.9:发布可观测AI助手

    Elastic可观测解决方案团队非常高兴地宣布,在8.9版本中发布Elastic可观测AI助手的初始(技术预览版)版本。 Elastic可观测AI助手将生成式AI融入以下用户工作流程中:针对日志信息的Elastic AI助手:提供使用生成式AI查找日志消息详细信息的含义并帮助您查找相关消息的能力视频内容针对APM错误的Elastic

    1.6K51编辑于 2023-07-29
  • 来自专栏腾讯云可观测专栏

    构建前后端一体化可观测场景,原来只需5步!

    为了解决此类问题,腾讯云前端性能监控 (RUM)联合腾讯云应用性能观测 (APM) 推出前后端链路打通方案,实现前后端可观测性全覆盖,可将 API 请求从前端发出到后端调用的链路串联,真实还原代码执行的完整故障现场 在应用性能观测-资源管理页新建业务系统。 (https://console.cloud.tencent.com/apm/monitor/team) team) 2. 前端性能监控相关文档推荐: 联系我们 如有任何疑问,欢迎扫码进入官方交流群~ ---- 欢迎关注腾讯云监控,了解最新动态 点击阅读原文了解可观测性平台

    1.4K30编辑于 2022-09-27
  • 来自专栏Tencent Serverless 官方专栏

    Serverless 可观测性升级,云函数支持应用性能观测 APM

    云函数 + APM,进一步提升 Serverless 可观测性 Serverless 产品免运维、弹性扩缩容的产品特性,意味着由平台来进行请求的调度、资源的分发,也意味着用户在进行问题定位、异常排查时需要依赖平台提供的可观测性功能 对于具有更细粒度、更定制化的可观测性诉求的场景,近日 云函数 SCF 与腾讯云应用性能观测 APM 团队合作,推出了云函数应用性能观测功能,现已正式发布,访问 SCF 控制台启用 APM 配置即可体验。 丰富的指标监控,打造多个函数应用级全局观测 SCF 与 APM 集成,将可观测性的重点从单个系统转为整体系统。 在页面上方选择地域,单击需要进行应用性能观测配置的函数名。 3. 在“函数配置”页面,选择右上角的编辑,勾选启用应用性能观测。(首次启用请按照控制台引导完成授权流程) 4. 5. 单击 保存 完成函数应用性能观测配置,函数调用后即可在 APM 控制台看到平台默认上报的链路信息。 6. 代码自定义上报方式请 点击阅读原文 查看。

    1.1K20编辑于 2021-12-18
  • 来自专栏AIOps

    金融行业可观测案例:业务交易链路可观测建设指南

    直达原文:金融行业可观测案例:业务交易链路可观测建设指南01.引言:金融业可观测建设的迫切性在金融行业,业务系统是企业的生命线(如银行支付、证券交易等场景),任何故障都可能引发重大损失。 可观测性由此成为金融运维的核心能力——它需覆盖从业务交易链路到基础设施的全栈观测,实现从“被动告警”到“主动洞察”的转型。 成果:故障定位时间从小时级缩短至5分钟,运维效率提升60%。 3)建设路径与挑战(1)分阶段实施可观测体系第一年(基础可观测):统一日志规范(如标准化交易日志字段)、补齐APM调用链追踪;第二年(因果可观测):融合指标、日志、追踪数据,构建业务拓扑(KBOM支持日志 02.结语:可观测性驱动金融业务韧性金融行业的可观测建设需以业务连续性为最终目标。

    35010编辑于 2025-06-12
  • 来自专栏OI

    YbtOJ 755「分治」变量观测

    YbtOJ 755「分治」变量观测 题目链接:YbtOJ #755 小 A 有 n 个变量,分别为 x_{1\sim n}。 x_{q_k} 与当前相比变化总值大于等于 t 时结束观测。 (保证同一个观测员的 q_{1\sim k} 各不相同) 2 i v:给 x_i 加上 v。你需要输出所有在这次操作结束观测观测员编号。 强制在线。 n,m \le 2\times10^5,1\le k\le3,1\le t,v\le10^6。 10+'0'),0);} Tp I void writeln(Cn Ty& x){write(x),pc('\n');} }using namespace FastIO; Cn int N=2e5+

    49320编辑于 2022-09-19
  • 来自专栏GIS与遥感开发平台

    巴基斯坦洪水(Landsat观测

    最近巴基斯坦有了洪灾,就想用遥感数据看一下怎么回事。 数据使用的是GEE中的Landsat数据,Landsat8没有在灾区过境,幸亏上一年发射了Landsat9,对灾区进行了成像。下面图中蓝色的是识别为水体的区域。 首先用MODIS数据(MOD09GA)看了一下灾区的范围,主要是在巴基斯坦的南部。 MODIS获取的水体范围 之后又看了一下Landsat9的水体范围,基本上都是这一块。 Landsat9获取的水体范围 淹没区域主要是集中在印度河流域,这应该是一个冲积平原。地形图如下: 基本上这

    57550编辑于 2022-12-03
  • 来自专栏云云众生s

    重新思考可观测

    如今,“可观测性”已经成为首选方法,可观测性项目随处可见。 但是可观测性并未实现其承诺。许多组织已经尝试了各种规模的环境。 在许多情况下,可观测性项目产生了大量数据和认知过载,但没有对系统可靠性带来明显改变。 此外,实现可观测性需要进行大规模的集成工作: 开发人员必须检测他们的代码以发出正确的跟踪、指标和日志,使系统变得可观察。检测仍然是一个艺术。 聪明的用户会知道这只是提供可观测性的不同方式。但我们强烈认为可观测性的未来在于提供更全面和准确的用户体验测量。CUJ 和特定旅程的 SLO 代表了从系统中心指标向更以用户为中心的方法迈出的重要一步。 通过接受关键用户旅程和特定旅程 SLO 等概念,我们可以更好地将可观测性实践与提供卓越用户体验的终极目标对齐。

    21010编辑于 2024-03-28
  • 来自专栏Forrest随想录

    聊聊可观测性Observability

    自打去年以来,可观测性Observability这个概念又非常的火,按照我的感受,在运维领域,这个概念是近两年即AIOps之后,热度最高的一个了。 无论是国内还是海外的运维相关的公司,都给了自己一个新的定位,就是可观测性平台,或者叫做可观测云,相对应的产品也是层出不穷。 所以,我观测了很久Observability之后,打算还是从实际情况入手来聊聊这个概念,看看可观测这个东西到底包含哪些内容?它们之间是什么关系? 通常我们在IT领域看到的关于可观测性概念的介绍,都会提到它是Metrics, Traces以及Logs的结合,通常会以下图来呈现。 这里我找了一个Splunk的Demo,我们可以直观的感受一下,可观测性的实际效果是怎样的。 大家看完这个示意,对可观测性就有更直观的理解了,不做赘述。

    1.2K30编辑于 2022-03-25
  • 企业应用观测中枢建设

    企业应用观测建设路径面对上述挑战,企业常常会踏上构建可观测性工具体系的征途,而在融合ITIM基础监控之后,针对应用的可观测能力补充往往在中间阶段进行建设落地。 针对应用的可观测体系,首先需要建设狭义上的应用监控工具(APM),通过请求跟踪(Trace)标记,实现应用架构可视化、应用流量指标化、请求记录数据化;在观测数据补足后,应用观测进入下一阶段建设目标——数据联动 完整可观测体系的结构与应用可观测的占位企业应用观测建设思路总体定位链路追踪的工具,即前面提到的APM,因为其自动化生成了一系列数据之间的关联关系,在整个可观测体系中是一个类似中枢的存在。 我们应当将APM尽可能和各类其他观测工具做串联打通,通过APM建立起基于业务实际请求流量的“桥梁”,有目标性地拉通各个观测工具和不同类型的观测数据,实现完整有效的观测效果。 结语以上,我们介绍了比较成熟理想的企业应用观测中枢建设方案。总的来说,应用观测领域目前尚处于快速发展、落地探索阶段,各企业在建设应用观测中枢的过程中不应操之过急。

    43410编辑于 2025-06-17
  • 来自专栏可观测系列

    观测系列——大模型在 IT 运维可观测性的应用

    直达原文:【可观测系列】大模型技术在可观测领域的应用01.前言随着云计算、分布式、微服务等前沿技术的广泛应用,现代IT系统架构已经从传统的单体结构演进到分布式和云原生架构。 据统计,绝大部分的故障涉及数据库、网络、应用代码等多个技术栈层面,人工排查通常需要切换使用5至8种不同的运维工具才能找到原因。 02.大模型在可观测领域的应用借助嘉为蓝鲸底座LLMOps开发平台,企业能够快速对接异构大模型,并利用其提供的智能体开发框架,结合私域知识和观测流数据,实现智能化运维场景的快速扩展。 03.场景说明小鲸观测助手,是基于嘉为蓝鲸LLMOps平台,结合嘉为蓝鲸全栈智能观测中心,自主研发的一款基于大模型的观测平台辅助分析工具。 5)告警智能知识推荐基于内置运维知识库,可以根据告警事件内容结合知识库找出相关联的知识,并给与解决方案的推荐。

    93610编辑于 2025-04-09
领券