概念 “可观测性”这个名词其实是最近几年才从控制理论中借用的舶来概念,不过实际上,计算机科学中关于可观测性的研究内容已经有了很多年的实践积累。 通常,人们会把可观测性分解为三个更具体的方向进行研究,分别是:日志收集、链路追踪和聚合度量。 结合k8s可观测性 度量(Metrics) 度量的主要目的是监控(Monitoring)和预警(Alert)。比如说,当某些度量指标达到了风险阈值时就触发事件,以便自动处理或者提醒管理员介入。 三者结合(Request-scoped,aggregatable events)三者结合可以理解为请求级别+聚合级别的事件,由此就形成了一个丰富的、全局的观测体系。
大家好,我是 JiekeXu,很高兴又和大家见面了,今天和大家一起来看看 MySQL 8 主从延迟监控(复制可观测性),欢迎点击上方蓝字“JiekeXu DBA之路”关注我的公众号,标星或置顶,更多干货第一时间到达 : 54d83026-40eb-11ee-a5d3-c8cb9e32df8e:105184-105547 *************************** 8. row ************* :1-4,54d83026-40eb-11ee-a5d3-c8cb9e32df8e:1-137384,54d8329c-40eb-11ee-a5d3-c8cb9e32df8e:1-5,7b6bf4f0- :1-4,54d83026-40eb-11ee-a5d3-c8cb9e32df8e:1-138552,54d8329c-40eb-11ee-a5d3-c8cb9e32df8e:1-5" 结论 复制可观测性非常详细,并为 MySQL 8 提供了大量信息。也许现在是更改查看或监视复制方式的好时机。
随着这几年我对 eBPF、Prometheus 等工具的深入了解,我才逐渐意识到“可观测性”这个词背后蕴含的意义。 很早以前,我就在 Linux 上使用 /proc/、top、sar 等工具来排查问题,却从未意识到,“观测”竟然是一门独立的学问。 这也正是“可观测性”弥足珍贵的原因之一:当系统出问题时,我们可以通过系统本身提供的可观测能力,去追踪和理解到底发生了什么。 不得不佩服 Linux 的设计者们,/proc 文件系统的设计在多年以前就已体现出极强的可观测性理念。 我并不想讲怎么样实现可观测性,毕竟我不是专家。 但我想谈谈观测给了我们一个什么样的视角。 这就合理了:调用 foo 十次产生约 8MB 的垃圾,加上我虚假分配的 10MB,共计约 108MB,就足够触发 GC 标记完 210MB 的内存。
背景 通常在分析性能问题时,我们会用 `top , sar , perf` 来观测 CPU 的使用情况;多数据情况下是观测别人的程序。 如果从熟悉工具的角度来看,观测自己的程序,根据观测到的结果再结合程序源代码,对于我们掌握性能分析工具会更有帮助。 for(;;) { // 不断的查询父进程的 pid ,这个会占用 sys 空间 getppid(); } } ---- sar 看 cpu 的使用率 要观测所有 0.00 99.80 平均时间: 7 3.99 0.00 0.40 0.00 0.00 95.61 平均时间: 8 1、ps 一下找到我们要采样的进程号 ps -ef | grep hello root 29835 29834 99 16:52 pts/8 00:14:07 /data/testing-cpps
GoF 包含的 23 种 面向对象模式 塑造了一代开发者设计软件的方式。在 2010 年代,云计算引入了发布 - 订阅(pub-sub)、微服务、事件驱动工作流和无服务器模型等模式,现在大多数基于云的分布式系统都是以它们为基础的。
一直以来 MySQL 复制延迟观测是不完善的,既无法观测到真实的主从延迟,也无法支持复杂的复制拓扑环境,常用的 second_behind_master 指标更多是判断是否存在回放延迟,以及趋势变化。 你无法直观的观测到事务精确的延迟情况,因为 slave 无法获知事务在 master 上的提交时间。 MySQL 8 复制延迟观测的改进 ---- WL#7319 和 WL#7374 共同完善了复制延迟观测,WL#7319 Infrastructure for GTID based delayed replication QUEUEING_TRANSACTION_IMMEDIATE_COMMIT_TIMESTAMP FROM performance_schema.replication_connection_status MySQL 8 从根源上解决了过往版本缺少事务提交时间且无法传递的问题,PS 视图暴露更多观测点简化了观测方式,帮助工程师更精准的诊断复制延迟问题。
“可观测性”已从技术热词落地为企业IT运维的核心能力,但仍有不少企业混淆“监控”与“可观测”的边界——监控是“被动检测已知问题”,而可观测是“主动探索未知故障”,2025年,企业IT架构愈发复杂,混合云 选择一款适配自身架构的可观测平台,成为企业保障业务连续性、降低运维成本的关键。本文先厘清可观测的核心定义与价值,再通过3款可观测平台的深度对比,结合实战选型逻辑,助力企业精准落地可观测能力。 02.3款可观测平台对比1)嘉为蓝鲸全栈智能可观测中心核心定位面向中大型企业的全栈智能可观测平台,以“指标、日志、调用链、拓扑”全链路数据融合为基础,“业务可观测”为核心,“AI智能闭环”为驱动,覆盖从底层硬件到上层业务的全链路观测 的一键下钻,无需跨工具切换,故障定位效率提升80%;兼容SNMP、JMX、NetFlow等200+协议,覆盖国产操作系统(麒麟OS、UOS)、国产数据库(达梦、人大金仓)、云平台(华为云、阿里云)、容器(K8s 特色能力整合APM、RUM、云拨测等8大子产品,基于OpenTelemetry构建全链路追踪,兼容Jaeger、Skywalking等开源生态;与腾讯云CVM、数据库等服务深度联动,部署效率提升40%,
蓝鲸在构建了包含 traces、logs、metrics 等多种数据类型的复杂数据系统的基础上,探索通过整合 CMDB、K8s、eBPF 等数据源,利用实体关联, 网络关联,自定义关联等关联手段, 构建了统一的观测数据关联模型 大家可以看到这张图,现阶段我把我们整个可观测相关的一些技术栈或者说一些软件,包括最近的 DeepFlow 也都放上去了,还有大家比较耳熟能详的 K8s、OTel、Prometheus 等等。 这里面 K8s 出现其实有点突兀,我在这一整张图里面称之为“群星闪耀时”。 到了 K8s,K8s 看起来好像很简单,一个独立集群,一个 Namespace、Deployment,它内部是有自己管控的。 可观测性的发展历程在可观测性的发展过程中,我们整理了相关的技术栈和软件,包括近期的 DeepFlow、广为人知的 Kubernetes(K8s)、OpenTelemetry(OTel)、Prometheus
tRPC-Go 教学——(5)filter、context 和日志组件 腾讯 tRPC-Go 教学——(6)服务发现 腾讯 tRPC-Go 教学——(7)服务配置和指标上报 腾讯 tRPC-Go 教学——(8) 通过泛 HTTP 能力实现和观测 MCP 服务 MCP 应用场景简介 LLM的MCP(Model Context Protocol,模型上下文协议)是由 Anthropic 公司主导开发的一种开放协议, 就本例子来说,从日志中我们可以观测到,Cursor 向 /mcp/sse 发起了一个 GET 请求,然后 mcp-go 返回了以下数据: event: endpoint data: /mcp/message 原文标题:《腾讯 tRPC-Go 教学——(8)通过泛 HTTP 能力实现和观测 MCP 服务》 发布日期:2025-04-18 原文链接:https://cloud.tencent.com/developer
Istio可观测性 Istio的可观测性包括metrics,日志,分布式链路跟踪以及可视化展示。 目录 Istio可观测性 Prometheus 配置说明 Option 1:合并metrics Option 2:自定义抓取metrics配置 TLS设置 总结 Jaeger 概述 跟踪上下文的传递 使用 raw.githubusercontent.com/istio/istio/release-1.7/samples/addons/jaeger.yaml 可以参考此处修改采样率 访问Jaeger 上面部署的Jaeger对应的k8s prometheus.istio-system.svc.cluster.local:9090 url: http://prometheus.istio-system.svc.cluster.local:9090 同样地,为名为kiali的k8s
一 可观测架构1 可观测数据处理架构设计流水日志日志index以及检索(es)监控指标(组件模调+业务指标)告警指标(参考监控指标,分别划分不同场景的阈值+告警级别+处置方法=sla)处理架构选型推荐开源 2 系统可观测白盒:描绘出系统架构,以及系统的数据流链路,在数据链路上关键处打点上报日志+指标3 用户可观测黑盒:决定以什么方式告知用户异常(push? 二 可观测前置条件1 服务状态感知 (client视角,结构化日志、模调指标)2 服务状态采集(数据server视角,es,普米)3 展示平台(grafana,es)4 告警=事件告警(无状态)+指标告警 (有状态)三 观测维度1 业务观测流量时延错误饱和度(特定状态)2 资源监控系统自身第三方依赖、中间件3 性能监控(业务定义的关注性能)4 租户状态跟踪(大客户监控面板)5 全景监控大盘
BCC(可观测性) 目录 BCC(可观测性) 简介 动机 安装 安装依赖 安装和编译LLVM 安装和编译BCC windows源码查看 BCC的基本使用 工具讲解 execsnoop opensnoop btrfs, xfs, zfs*) biolatency biosnoop cachestat tcpconnect+tcpaccept+tcpretrans runqlat profile BCC的开发 可观测性 p 185 # trace PID 185 only profile 推荐使用strace和perf trace命令 BCC的开发 本节介绍使用Python接口进行BCC的开发,包括两部分:可观测性和网络 可观测性 Lesson 1. Hello World 执行examples/hello_world.py,并在另一个会话中执行一些命令(如ls),此时会打印"Hello,World!". # . 13 "en_US.UTF-8" 20 "~" 70 "#%^,~:-=?
Elastic可观测解决方案团队非常高兴地宣布,在8.9版本中发布Elastic可观测AI助手的初始(技术预览版)版本。 Elastic可观测AI助手将生成式AI融入以下用户工作流程中:针对日志信息的Elastic AI助手:提供使用生成式AI查找日志消息详细信息的含义并帮助您查找相关消息的能力视频内容针对APM错误的Elastic
其实很简单,可以从两个方面来进行增强: 首先是提高应用的可观测性; 第二是提高应用的可恢复能力。 从可观测性上来讲,可以在三个方面来去做增强: 首先是应用的健康状态上面,可以实时地进行观测; 第二个是可以获取应用的资源使用情况; 第三个是可以拿到应用的实时日志,进行问题的诊断与分析。 最后当出现问题的时候,理想的状况是:可以通过和 K8s 集成的自愈机制进行完整的恢复。 问题诊断 接下来给大家讲解一下在 K8s 中常见的问题诊断。 ? 应用故障排查-了解状态机制 首先要了解一下 K8s 中的一个设计理念,就是这个状态机制。 其实 K8s 整体的一个状态就是基于这种类似像状态机的一个机制进行转换的,而不同状态之间的转化都会在相应的 K8s对象上面留下来类似像 Status 或者像 Conditions 的一些字段来进行表示。
直达原文:【可观测系列】大模型技术在可观测领域的应用01.前言随着云计算、分布式、微服务等前沿技术的广泛应用,现代IT系统架构已经从传统的单体结构演进到分布式和云原生架构。 据统计,绝大部分的故障涉及数据库、网络、应用代码等多个技术栈层面,人工排查通常需要切换使用5至8种不同的运维工具才能找到原因。 02.大模型在可观测领域的应用借助嘉为蓝鲸底座LLMOps开发平台,企业能够快速对接异构大模型,并利用其提供的智能体开发框架,结合私域知识和观测流数据,实现智能化运维场景的快速扩展。 03.场景说明小鲸观测助手,是基于嘉为蓝鲸LLMOps平台,结合嘉为蓝鲸全栈智能观测中心,自主研发的一款基于大模型的观测平台辅助分析工具。 实现效果如下图:8)告警处置智能引导结合预测性对话流与大模型,小鲸观测助手能够实现对话智能引导,引导用户完成智能提单引导、智能故障处置引导等场景:根据故障排查的场景,预设引导性场景,智能机器人识别关键字以后进入引导场景
可观测性旨在让每一位工程师能够根据对所有系统和应用程序的数据分析,主动地对工作任务进行优先级排序。 当我们想到“可观测性”时,我们大多数人将其定义为“指标、日志和跟踪”。并非如此。 换句话说,可观测性不仅仅是收集和整理数据集。它不仅仅是关于警报、关联和正常运行时间。 可观测性是关于理解各个用户体验的一切。 具体到可观测性的当前形式,主动性并不是基于我们的日志、指标和跟踪的前瞻性指标。 我们的可观测性供应商是否衡量了中断体验和收入损失的下游影响? 不幸的是,现在的答案是:他们没有。 我们知道可观测性需要走向何方。了解我们系统的状态只是第一步。下一步是了解我们用户体验的状态。
云函数 + APM,进一步提升 Serverless 可观测性 Serverless 产品免运维、弹性扩缩容的产品特性,意味着由平台来进行请求的调度、资源的分发,也意味着用户在进行问题定位、异常排查时需要依赖平台提供的可观测性功能 对于具有更细粒度、更定制化的可观测性诉求的场景,近日 云函数 SCF 与腾讯云应用性能观测 APM 团队合作,推出了云函数应用性能观测功能,现已正式发布,访问 SCF 控制台启用 APM 配置即可体验。 丰富的指标监控,打造多个函数应用级全局观测 SCF 与 APM 集成,将可观测性的重点从单个系统转为整体系统。 在 Serverless 场景下,即从对 单个函数 的观测转为对 Serverless 应用(包含多个函数及其他服务) 的全局观测,通过丰富的指标监控采集分析、依赖拓扑图、调用链分析、日志分析等能力, 在页面上方选择地域,单击需要进行应用性能观测配置的函数名。 3. 在“函数配置”页面,选择右上角的编辑,勾选启用应用性能观测。(首次启用请按照控制台引导完成授权流程) 4.
直达原文:金融行业可观测案例:业务交易链路可观测建设指南01.引言:金融业可观测建设的迫切性在金融行业,业务系统是企业的生命线(如银行支付、证券交易等场景),任何故障都可能引发重大损失。 可观测性由此成为金融运维的核心能力——它需覆盖从业务交易链路到基础设施的全栈观测,实现从“被动告警”到“主动洞察”的转型。 3)建设路径与挑战(1)分阶段实施可观测体系第一年(基础可观测):统一日志规范(如标准化交易日志字段)、补齐APM调用链追踪;第二年(因果可观测):融合指标、日志、追踪数据,构建业务拓扑(KBOM支持日志 方案:APM自动注入TraceID,关联日志与资源标签(如K8s Pod IP),留存动态环境快照。02.结语:可观测性驱动金融业务韧性金融行业的可观测建设需以业务连续性为最终目标。 未来,随着大模型技术在可观测领域的深化应用(如嘉为蓝鲸“小鲸观测助手”),金融运维将从“人工排障”转向“智能决策”,为业务稳定运行构建更强韧性。
YbtOJ 755「分治」变量观测 题目链接:YbtOJ #755 小 A 有 n 个变量,分别为 x_{1\sim n}。 接下来依次发生了 q 次事件,分为两种形式: 1 t k q[1] q[2] ... q[k]:假设这是第 p 次 1 操作,则设置一个编号为 p 的观测员,直到 x_{q_1},x_{q_2},\cdots x_{q_k} 与当前相比变化总值大于等于 t 时结束观测。 (保证同一个观测员的 q_{1\sim k} 各不相同) 2 i v:给 x_i 加上 v。你需要输出所有在这次操作结束观测的观测员编号。 强制在线。 Solution 考虑将每个人观测时间分为 k 份,每份 \lceil \frac tk \rceil,丢到每个变量对应的 set 里。
译自 Network Observability in K8s Clusters for Better Troubleshooting,作者 Dhiraj Sehgal。 使用 K8s 工作负载进行网络可观测性很困难 Kubernetes 会根据实时业务需求扩展和缩减 Pod,并创建和销毁服务,从而为每个工作负载实例创建动态网络连接。 通用可观测性工具的局限性 DevOps 和平台团队通常依赖通用可观测性工具来深入了解工作负载通信和网络策略。 用于安全通信的网络可观测性 在安全性方面,DevOps 和平台团队经常报告说,通用可观测性解决方案无法有效地监控工作负载之间的通信以及进出集群的通信。 对于 Kubernetes 网络可观测性来说,至关重要的是**可观测性工具是 Kubernetes 的原生工具**,并且在集群内部运行。