概述 此解决方案利用开源工具如ClickHouse、Neo4j、VectorDB、PromQL、LogQL、OpenTracing、Prometheus、Grafana、AlertManager和DeepFlow record: node_disk_usage expr: 100 - (avg by (instance) (node_filesystem_avail_bytes{fstype="ext4" } / node_filesystem_size_bytes{fstype="ext4"}) * 100) 配置说明: 此示例定义了一个名为“host-monitoring”的规则组,其中包含四个用于计算主机负载 rules: - alert: HighDiskUsage expr: node_filesystem_avail_bytes{fstype="ext4" grafana/latest/ 2 Prometheus 文档:https://prometheus.io/docs/ 3 deepflow 文档:https://deepflow.io/docs/zh/ 4
原文链接:https://www.cncf.io/blog/2022/08/01/kubernetes-monitoring-leveraging-4-open-source-toolsets/
已知/未知矩阵对于理解你的可观测性方案的实施情况非常有帮助。 译自 The 4 Evolutions of Your Observability Journey,作者 Hazel Weakly。 在进行可观测性之旅时,每个公司都会经历几个具体的阶段。 简而言之,这三个任务几乎涵盖了我们在平台工程、可观测性、站点可靠性工程 (SRE) 工作、DevOps 等方面所做的一切。 说实话,如果您不能充分阐明为什么可观测性之旅对公司至关重要,那么您将永远无法完成这段旅程。人的理解和共同的动机必须放在首位。 如果说第一阶段是大多数可观测性工具所在的地方,那么这就是服务水平目标 (SLO) 的时代;这也是可观测性开始以“是,而且”的方式表述的阶段。可观测性?
随着这几年我对 eBPF、Prometheus 等工具的深入了解,我才逐渐意识到“可观测性”这个词背后蕴含的意义。 很早以前,我就在 Linux 上使用 /proc/、top、sar 等工具来排查问题,却从未意识到,“观测”竟然是一门独立的学问。 这也正是“可观测性”弥足珍贵的原因之一:当系统出问题时,我们可以通过系统本身提供的可观测能力,去追踪和理解到底发生了什么。 不得不佩服 Linux 的设计者们,/proc 文件系统的设计在多年以前就已体现出极强的可观测性理念。 我并不想讲怎么样实现可观测性,毕竟我不是专家。 但我想谈谈观测给了我们一个什么样的视角。 这从侧面也说明了,当我们通过观测来排查问题时,并不需要一上来就去了解整个系统的实现细节,从宏观视角就可以排查很多问题。 这一点很重要,前面铺垫了这么多,都是为了这个观点。
作者 | Michael Bogan 译者 | Luga Lee 策划 | Luga Lee 基于关键的可观测性指标,我们更能了解我们的应用服务运行状态,以便提升服务运行效能。 设置适当的监控将为我们提供更完整的观测图,但可能很难知道从哪里开始。在这篇文章中,我们将介绍可观测性指标应该关注的那些服务领域,以确保大家不会错过关键信息。 我们的服务器作为 HTTP 响应发出的任何 5xx(甚至 4xx)都应该被标记和计数。即使我们已经考虑到的情况,例如捕获的异常,也应该受到监视,因为它们仍然代表非理想状态。 4、饱和度 除此之外,我们还应该跟踪每个微服务的内存使用情况、CPU 使用情况、磁盘读/写和可用存储。
背景 通常在分析性能问题时,我们会用 `top , sar , perf` 来观测 CPU 的使用情况;多数据情况下是观测别人的程序。 如果从熟悉工具的角度来看,观测自己的程序,根据观测到的结果再结合程序源代码,对于我们掌握性能分析工具会更有帮助。 for(;;) { // 不断的查询父进程的 pid ,这个会占用 sys 空间 getppid(); } } ---- sar 看 cpu 的使用率 要观测所有 0.00 99.01 平均时间: 3 0.20 0.00 0.40 0.00 0.00 99.40 平均时间: 4
除了这些,langchain4j还提供了更高抽象级别的AIService,可以极大简化代码。 一、基本用法 1.1 定义业务接口 1 /** 2 * @author junmingyang 3 */ 4 public interface ChineseTeacher { 5 6 onError(sink::tryEmitError) 18 .start(); 19 return sink.asFlux(); 20 } 四、可观测性 文中代码: https://github.com/yjmyzz/langchain4j-study/tree/day09 参考: https://docs.langchain4j.dev/tutorials /observability https://docs.langchain4j.dev/tutorials/ai-services
相关的依赖包是log4j和适配log4j2的桥接包log4j-1.2-api。 相关的依赖是slf4j-api和适配log4j2的桥接包og4j-slf4j-impl或者log4j-slf4j2-impl。 ,这里就以Log4j2绑定Slf4j的案例来说明,使用Slf4j来作为日志门面,使用Log4j2来实现具体的日志配置与打印。 依赖引入可以先通过如下图来看下Log4j2与Slf4之间的适配需要引入哪些依赖包:图片可以看到如果要使用Slf4j门面的话,需要引入一个Slf4j门面依赖包slf4j-api和一个与log4j2绑定slf4j 在日志打印格式中设置获取链路追踪id的获取方式%X{TraceId} ,然后在Java代码中将链路追踪Id放入日志诊断上下文MDC中即可如代码: MDC.put("TraceId", "123456");总结日志也是我们最常用的观测系统健康状况的方式
作者介绍 滴滴出行可观测架构负责人——钱威 TakinTalks稳定性社区专家团成员,滴滴出行可观测架构负责人。深耕可观测领域多年,专注于架构设计与优化。 因此,我们更愿意通过不断地演进可观测的架构,来支持业务的快速迭代和创新。 一、可观测架构演进解决了哪些问题? 1.1 滴滴可观测系统通用架构 滴滴可观测系统通用架构主要包含几个部分,如下图所示。 1.2 可观测架构演进的4个阶段 1.2.1 阶段一:2017年以前 当业务需求发生变化时,存储模块的性能问题通常是最先暴露出来的。在2017年以前,滴滴主要使用InfluxDB作为存储选择。 2.1 如何观测可观测系统? 我们不能让可观测的系统对其本身做观测。例如,如果存储系统出现故障,而查询数据的方式是从自身的存储中查询,那么就会形成循环依赖。 4、接口偶发性超时,调用链只能看到超时接口名称,看不到内部方法,无法定位根因,也难以复现,怎么办?
让我们看一个非常简单的例子(通过 OpenAI API 使用“GPT-4o-mini”;你可以使用 OLLAMA 或 Hugging Face Transformers 在本地运行类似的提示): PROMPT Sentiment: RESPONSE: (GPT 4o-mini) Positive 现如今比较先进的模型是否需要少量的样本才能正确地完成任务? RESPONSE: (GPT 4o-mini) Photosynthesis is the process by which plants, algae, and some bacteria convert RESPONSE: (GPT 4o-mini) Photosynthesis is how plants make their own food using sunlight, water, and air 图 4:上下文引导模式示例 可编辑输出模式 使用 GenAI 模型,在许多场景中都没有唯一的正确答案。最佳输出取决于上下文、应用程序和用户偏好。认识到这一点,你就应该考虑让用户修改或重写生成的内容。
“可观测性”已从技术热词落地为企业IT运维的核心能力,但仍有不少企业混淆“监控”与“可观测”的边界——监控是“被动检测已知问题”,而可观测是“主动探索未知故障”,2025年,企业IT架构愈发复杂,混合云 选择一款适配自身架构的可观测平台,成为企业保障业务连续性、降低运维成本的关键。本文先厘清可观测的核心定义与价值,再通过3款可观测平台的深度对比,结合实战选型逻辑,助力企业精准落地可观测能力。 02.3款可观测平台对比1)嘉为蓝鲸全栈智能可观测中心核心定位面向中大型企业的全栈智能可观测平台,以“指标、日志、调用链、拓扑”全链路数据融合为基础,“业务可观测”为核心,“AI智能闭环”为驱动,覆盖从底层硬件到上层业务的全链路观测 2)腾讯云可观测平台(TCOP)核心定位腾讯云原生一体化可观测平台,深度绑定腾讯云生态,聚焦云原生全链路观测场景,主打“云资源联动+轻量化部署”。 4大核心维度1)按IT架构适配选型混合架构+国产化需求:首选嘉为蓝鲸,全栈兼容传统、云原生、国产软硬件,无需多工具整合;纯腾讯云生态:选腾讯云TCOP,云资源联动效率高,部署成本低;网络专项需求:选SolarWindsNPM
// 创建空文件 $ touch /mnt/ext4/a.txt // Blocks是磁盘扇区的大小,IO Block是操作系统每次IO的大小(4K),明显占用扇区的大小为0 $ stat /mnt/ext4 a.txt // 这里看到ext4文件系统分配了8个扇区,每个扇区大小是512个字节,所以8个扇区大小就是IO Block大小 $ stat /mnt/ext4/a.txt File: /mnt $ filefrag -v /mnt/ext4/a.txt Filesystem type is: ef53 File size of /mnt/ext4/a.txt is 5 (1 block of $ stat /mnt/ext4/a.txt File: /mnt/ext4/a.txt Size: 5 Blocks: 8 IO Block: a.txt $ touch /mnt/ext4/b.ext $ stat /mnt/ext4/b.ext File: /mnt/ext4/b.ext Size: 0
这里我专门标出一个黄色的点 IPv4、IPv6,其实现在我们经常做的一件事,就是 IPv6 改造。 本来这事不是一个很大的事,IPv4 对应一个 IPv6,但是在改造过程中,其实要做很多工作,就是我没有办法。 而且问题是这个 ID 可能是重名,甚至可能只是现在叫这个 ID,过段时间可能又换了一个 ID,像我们刚刚提到的 IPv4 和 IPv6,其实就是一个很典型的特征。 第三个是可扩展性,也是我刚刚一直在提到的一个点,拿 IPv6 来举例,就是一个主机之前是 IPv4,要扩展它 IPv6,这是一个很大的工作量。 下面也可以看一下主机,这个主机之前定义了一个叫 System,它的 IP 可能就是一个 IPv4 的 IP,这时候突然之间有了 IPv6 的诉求,那么就新增一个 IPv6 的实体,再通过这个 IPv4
有效的可观测性可以减少业务中断、故障排除时间和工程疲劳,同时提高客户满意度。 译自 4 Unexpected Costs of Unreliable Observability。 不可靠的可观测性正在(并将继续)给您带来4大成本 业务和收入中断 即使您的应用程序还在运行,当您的可观测性平台关闭时,您也无法完全经营您的业务。例如,当可观测性停止时,审计跟踪可能中断。 这意味着在可观测性平台恢复之前,您无法允许任何交易。当可观测性平台不可用时,您还可能需要告诉您的工程师停止部署。在这两种情况下,不可靠的可观测性工具都会耗费您的时间和金钱。 不可靠的可观测性降低了对可观测性工具的信心。开发人员在推出新代码时会犹豫 - 这会减慢部署和业务。 工程师疲劳 可观测性停机时间的人为成本是真实的,导致疲劳,从而对您的收入和利润产生负面影响。 如何提高可观测性投资回报率(ROI) 最近的一份Forrester Research报告显示,可靠的可观测性解决方案每年可以减少75%的严重事件。
Istio可观测性 Istio的可观测性包括metrics,日志,分布式链路跟踪以及可视化展示。 目录 Istio可观测性 Prometheus 配置说明 Option 1:合并metrics Option 2:自定义抓取metrics配置 TLS设置 总结 Jaeger 概述 跟踪上下文的传递 使用
一 可观测架构1 可观测数据处理架构设计流水日志日志index以及检索(es)监控指标(组件模调+业务指标)告警指标(参考监控指标,分别划分不同场景的阈值+告警级别+处置方法=sla)处理架构选型推荐开源 2 系统可观测白盒:描绘出系统架构,以及系统的数据流链路,在数据链路上关键处打点上报日志+指标3 用户可观测黑盒:决定以什么方式告知用户异常(push? 二 可观测前置条件1 服务状态感知 (client视角,结构化日志、模调指标)2 服务状态采集(数据server视角,es,普米)3 展示平台(grafana,es)4 告警=事件告警(无状态)+指标告警 (有状态)三 观测维度1 业务观测流量时延错误饱和度(特定状态)2 资源监控系统自身第三方依赖、中间件3 性能监控(业务定义的关注性能)4 租户状态跟踪(大客户监控面板)5 全景监控大盘
BCC(可观测性) 目录 BCC(可观测性) 简介 动机 安装 安装依赖 安装和编译LLVM 安装和编译BCC windows源码查看 BCC的基本使用 工具讲解 execsnoop opensnoop profile BCC的开发 可观测性 Lesson 1. ext4slower (or btrfs, xfs, zfs*) ext4slower会跟踪ext4的读,写,打开和fsyncs操作,并在超过阈值后打印信息。 p 185 # trace PID 185 only profile 推荐使用strace和perf trace命令 BCC的开发 本节介绍使用Python接口进行BCC的开发,包括两部分:可观测性和网络 可观测性 Lesson 1. Hello World 执行examples/hello_world.py,并在另一个会话中执行一些命令(如ls),此时会打印"Hello,World!". # .
Elastic可观测解决方案团队非常高兴地宣布,在8.9版本中发布Elastic可观测AI助手的初始(技术预览版)版本。 Elastic可观测AI助手将生成式AI融入以下用户工作流程中:针对日志信息的Elastic AI助手:提供使用生成式AI查找日志消息详细信息的含义并帮助您查找相关消息的能力视频内容针对APM错误的Elastic <insert API key>xpack.observability.aiAssistant.provider.openAI.model: <insert model name, e.g. gpt-4>
可观测性旨在让每一位工程师能够根据对所有系统和应用程序的数据分析,主动地对工作任务进行优先级排序。 当我们想到“可观测性”时,我们大多数人将其定义为“指标、日志和跟踪”。并非如此。 换句话说,可观测性不仅仅是收集和整理数据集。它不仅仅是关于警报、关联和正常运行时间。 可观测性是关于理解各个用户体验的一切。 具体到可观测性的当前形式,主动性并不是基于我们的日志、指标和跟踪的前瞻性指标。 我们的可观测性供应商是否衡量了中断体验和收入损失的下游影响? 不幸的是,现在的答案是:他们没有。 我们知道可观测性需要走向何方。了解我们系统的状态只是第一步。下一步是了解我们用户体验的状态。
云函数 + APM,进一步提升 Serverless 可观测性 Serverless 产品免运维、弹性扩缩容的产品特性,意味着由平台来进行请求的调度、资源的分发,也意味着用户在进行问题定位、异常排查时需要依赖平台提供的可观测性功能 对于具有更细粒度、更定制化的可观测性诉求的场景,近日 云函数 SCF 与腾讯云应用性能观测 APM 团队合作,推出了云函数应用性能观测功能,现已正式发布,访问 SCF 控制台启用 APM 配置即可体验。 丰富的指标监控,打造多个函数应用级全局观测 SCF 与 APM 集成,将可观测性的重点从单个系统转为整体系统。 在 Serverless 场景下,即从对 单个函数 的观测转为对 Serverless 应用(包含多个函数及其他服务) 的全局观测,通过丰富的指标监控采集分析、依赖拓扑图、调用链分析、日志分析等能力, 在页面上方选择地域,单击需要进行应用性能观测配置的函数名。 3. 在“函数配置”页面,选择右上角的编辑,勾选启用应用性能观测。(首次启用请按照控制台引导完成授权流程) 4.