首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Rainbond开源「容器云平台」

    eBPF Cilium实战(2) - 底层网络可观测

    在之前的平台中,对于组件之间的网络流向不具备直接的可观测性,用户组件间通信出现问题,只能通过传统命令行工具进行手动排查,而 cilium 的 Hubble 服务可以提供 UI 界面向用户展示实时的流量状态 ,同时可以将这些指标暴露给 Prometheus 进行聚合整理,让用户可以更直观的对底层网络状态进行观测监控。 开启 Hubble UI 服务 cilium 的网络可观测性由 Hubble 服务提供,在安装 cilium 时,默认不会安装 Hubble ,可以通过以下命令开启 Hubble 服务 helm upgrade

    1.3K30编辑于 2022-04-11
  • 来自专栏重归混沌

    谈谈观测

    随着这几年我对 eBPF、Prometheus 等工具的深入了解,我才逐渐意识到“可观测性”这个词背后蕴含的意义。 这也正是“可观测性”弥足珍贵的原因之一:当系统出问题时,我们可以通过系统本身提供的可观测能力,去追踪和理解到底发生了什么。 不得不佩服 Linux 的设计者们,/proc 文件系统的设计在多年以前就已体现出极强的可观测性理念。 我并不想讲怎么样实现可观测性,毕竟我不是专家。 但我想谈谈观测给了我们一个什么样的视角。 按默认 GC 策略,GC 会等到内存分配到 297.5 * 2 = 595MB 时才会启动下一轮 GC,这个计算远远高于我的观查到的数据。 但我并不这么认为——不管业务逻辑怎么写,在 GC 系统的视角下,它的行为是稳定的,它始终以内存分配量的 2 倍作为标记对象的阈值。

    9210编辑于 2026-03-25
  • 来自专栏初代庄主

    观测 CPU

    背景 通常在分析性能问题时,我们会用 `top , sar , perf` 来观测 CPU 的使用情况;多数据情况下是观测别人的程序。 如果从熟悉工具的角度来看,观测自己的程序,根据观测到的结果再结合程序源代码,对于我们掌握性能分析工具会更有帮助。 for(;;) { // 不断的查询父进程的 pid ,这个会占用 sys 空间 getppid(); } } ---- sar 看 cpu 的使用率 要观测所有 0.00 99.40 平均时间: 1 0.20 0.00 0.00 0.00 0.00 99.80 平均时间: 2 /testing-cpps/build/hello001 root 22861 22837 0 17:06 pts/1 00:00:00 grep --color=auto hell 2

    56140编辑于 2022-05-17
  • 来自专栏深度学习与python

    作业帮服务观测之基础观测能力

    就是这么简单——只需告诉模型它应该是谁,如下所示: PROMPT (without role prompting): Explain Photosynthesis in 1-2 sentences. Explain Photosynthesis to your students in 1-2 sentences.  (dream control, social media origin, AI-driven future). 2.  图 2:检索增强生成 在构建 AI 系统时,在以下情况下,你应该考虑使用 RAG: 模型需要超出模型训练截止日期的最新信息。 系统依赖于特定领域中专有的或经常更新的数据。

    24710编辑于 2025-06-08
  • 来自专栏新技术

    ​可观测性之Log4j2优雅日志打印

    相关的依赖是slf4j-api和适配log4j2的桥接包og4j-slf4j-impl或者log4j-slf4j2-impl。 了解了日志组件的历史,可以看到最后log4j2集众家之长,那应该如何优雅的使用log4j2日志呢,可以继续往下看。 特征之所以要使用Log4j2 主要还是因为Log4j2 为我们提供了足够好用的支持,下面可以来看下Log4j2的一些特征:API分离: API 与实现是分开的。 ,这里就以Log4j2绑定Slf4j的案例来说明,使用Slf4j来作为日志门面,使用Log4j2来实现具体的日志配置与打印。 在日志打印格式中设置获取链路追踪id的获取方式%X{TraceId} ,然后在Java代码中将链路追踪Id放入日志诊断上下文MDC中即可如代码: MDC.put("TraceId", "123456");总结日志也是我们最常用的观测系统健康状况的方式

    2.2K30编辑于 2023-01-06
  • 2025企业可观测产品选型实战指南:可观测是什么?可观测平台怎么选?

    选择一款适配自身架构的可观测平台,成为企业保障业务连续性、降低运维成本的关键。本文先厘清可观测的核心定义与价值,再通过3款可观测平台的深度对比,结合实战选型逻辑,助力企业精准落地可观测能力。 2)可观测平台的价值降本增效:故障定位时间从小时级缩短至分钟级,运维人力成本降低30%以上;业务保障:提前感知潜在故障,避免业务中断,核心业务连续性提升;架构适配:兼容混合云、国产化、容器化等复杂架构, 2)腾讯云可观测平台(TCOP)核心定位腾讯云原生一体化可观测平台,深度绑定腾讯云生态,聚焦云原生全链路观测场景,主打“云资源联动+轻量化部署”。 2)按核心需求优先级选型业务可观测+智能闭环:嘉为蓝鲸(业务关联深、AI能力全);云原生全链路观测:腾讯云TCOP(开源生态兼容、轻量化部署);网络性能精准监控:SolarWindsNPM(多厂商设备适配 Q2:嘉为蓝鲸相比腾讯云TCOP,核心优势在哪些场景体现?

    33810编辑于 2025-11-19
  • 蓝鲸观测平台:统一观测数据关联模型探索

    前 言本文为蓝鲸观测平台数据模块负责人 在 蓝鲸智云 和 DeepFlow 社区 合办的第六场 eBPF 零侵扰可观测性 Meetup 上的演讲,原来题为根因定位关键:统一观测数据关联模型探索概 述根因分析高度依赖可关联的观测数据 第一部分是在可观测出现之前,我称之为传统监控以及现在经常说的可观测。传统监控和可观测的区别,其实我总结下来可能就是两个不一样的地方,一个是被动,一个是主动。什么叫被动呢? 第二部分就是我们蓝鲸观测平台已经做了好几年了,在这几年的过程中,我们基于整个观测场景搭建了那么一套观测体系,有常见的三大支柱,我们现在加了一根第四根支柱,就是事件那块,像指标、Logs、Trace 等等 现在这个场景就是一次简单的变更,一个 Pod 的变更,可以注意到这里是一个 Query API Service 的重启,它的 Pod 就已经不再是原先那个 Pod,它原来叫 Pod1,现在因为重启之后变成了 Pod2, 如果这个模型不是一个时序的,只是一个实时的,现在这个时候就已经不存在所谓的观测的意义了。所有的观测,都是当下以及未来,甚至以前都是需要在观测整个体系里面去表现的。

    99110编辑于 2024-09-27
  • 来自专栏charlieroro

    Istio可观测

    Istio可观测性 Istio的可观测性包括metrics,日志,分布式链路跟踪以及可视化展示。 目录 Istio可观测性 Prometheus 配置说明 Option 1:合并metrics Option 2:自定义抓取metrics配置 TLS设置 总结 Jaeger 概述 跟踪上下文的传递 使用 Option 2:自定义抓取metrics配置 内置的demo profile会安装Prometheus,并包含了所有必要的scraping配置。 将reviews-v1设置为30%,reviews-v2设置为0%,将reviews-v3设置为70%。 ? 点击Create创建该路由。 name: v2 - labels: version: v3 name: v3 点击左边导航栏的Graph按钮返回到bookinfo图表 向bookinfo应用发送请求

    3.2K20发布于 2020-09-07
  • 来自专栏云原生技术呱呱

    观测建设总结

    一 可观测架构1 可观测数据处理架构设计流水日志日志index以及检索(es)监控指标(组件模调+业务指标)告警指标(参考监控指标,分别划分不同场景的阈值+告警级别+处置方法=sla)处理架构选型推荐开源 2 系统可观测白盒:描绘出系统架构,以及系统的数据流链路,在数据链路上关键处打点上报日志+指标3 用户可观测黑盒:决定以什么方式告知用户异常(push? 二 可观测前置条件1 服务状态感知 (client视角,结构化日志、模调指标)2 服务状态采集(数据server视角,es,普米)3 展示平台(grafana,es)4 告警=事件告警(无状态)+指标告警 (有状态)三 观测维度1 业务观测流量时延错误饱和度(特定状态)2 资源监控系统自身第三方依赖、中间件3 性能监控(业务定义的关注性能)4 租户状态跟踪(大客户监控面板)5 全景监控大盘

    45530编辑于 2022-07-14
  • 来自专栏charlieroro

    BCC(可观测性)

    BCC(可观测性) 目录 BCC(可观测性) 简介 动机 安装 安装依赖 安装和编译LLVM 安装和编译BCC windows源码查看 BCC的基本使用 工具讲解 execsnoop opensnoop btrfs, xfs, zfs*) biolatency biosnoop cachestat tcpconnect+tcpaccept+tcpretrans runqlat profile BCC的开发 可观测性 p 185 # trace PID 185 only profile 推荐使用strace和perf trace命令 BCC的开发 本节介绍使用Python接口进行BCC的开发,包括两部分:可观测性和网络 可观测性 Lesson 1. Hello World 执行examples/hello_world.py,并在另一个会话中执行一些命令(如ls),此时会打印"Hello,World!". # . bpf_log2l(): 对提供的值进行log-2计算,作为直方图的索引,构造二次幂直方图。

    3.8K30发布于 2020-07-09
  • 来自专栏GEE数据专栏,GEE学习专栏,GEE错误集等专栏

    Google Earth Engine ——全球JRCGSW1_2MonthlyHistory数据集的观测数据

    2020-01-01T00:00:00 Dataset Provider EC JRC / Google Collection Snippet ee.ImageCollection("JRC/GSW1_2/ Water detection for the month. water Bitmask Bits 0-1: Water detection 0: No data1: Not water2: Water Bits 0-1: Water detection 0: No data 1: Not water 2: Water Name Type Description month (doi:10.1038/nature20584) 代码: var dataset = ee.ImageCollection('JRC/GSW1_2/MonthlyHistory'); var visualization

    28200编辑于 2024-05-24
  • 来自专栏Elastic Stack专栏

    Elastic可观测解决方案8.9:发布可观测AI助手

    Elastic可观测解决方案团队非常高兴地宣布,在8.9版本中发布Elastic可观测AI助手的初始(技术预览版)版本。 Elastic可观测AI助手将生成式AI融入以下用户工作流程中:针对日志信息的Elastic AI助手:提供使用生成式AI查找日志消息详细信息的含义并帮助您查找相关消息的能力视频内容针对APM错误的Elastic

    1.6K51编辑于 2023-07-29
  • 来自专栏GEE数据专栏,GEE学习专栏,GEE错误集等专栏

    Google Earth Engine ——全球JRCGSW1_2Metadata数据集的观测数据

    该产品包含计算全球地表水数据集的观测数据的元数据。从未检测到水的区域被掩盖了。 :00:00 - 2020-01-01T00:00:00 Dataset Provider EC JRC / Google Collection Snippet ee.Image("JRC/GSW1_2/ (doi:10.1038/nature20584) 代码: var dataset = ee.Image('JRC/GSW1_2/Metadata'); var visualization = {

    31710编辑于 2024-02-02
  • 来自专栏一个有趣的灵魂W

    好文:来自OCO-3的以城市为中心的卫星CO2观测:洛杉矶特大城市的初步观测

    Los Angeles megacity 来自轨道碳观测站3的以城市为中心的卫星CO2观测:洛杉矶特大城市的初步观察 From:加州理工学院 摘要:NASA的轨道碳观测站3(OCO-3)旨在支持对人为二氧化碳排放量的量化和监测 这些测量结果产生了二氧化碳的平均柱干空气摩尔分数(XCO2)的密集,精细的空间图。首次,我们展示并分析了从OCO-3 SAM和目标模式观测值得出的洛杉矶大城市(LA)上的XCO2分布。 OCO-3的密集观测揭示了城市中XCO2的城市内部变化,这是以前从未从太空中观察到的。 与OCO-2相似,OCO-3的目标模式观测值提供了用于验证XCO2产品的主要数据集,通常是在使用地面TCCON仪器的地点采集的。 OCO-2,GOSAT,TROPOMI和MOPITT。 部分结果: ? OCO-3目标和SAM观测值的XCO2时间序列。单独的条带最长可达20 s。

    1.6K30发布于 2021-04-29
  • 来自专栏GEE数据专栏,GEE学习专栏,GEE错误集等专栏

    Google Earth Engine ——全球JRCGSW1_2GlobalSurfaceWater数据集的观测数据

    :00:00 - 2020-01-01T00:00:00 Dataset Provider EC JRC / Google Collection Snippet ee.Image("JRC/GSW1_2/ (epoch1-epoch2)/(epoch1+epoch2) * 100 -100 100 % seasonality Number of months water is present. 0 12 Class Table: transition Value Color Color Value Description 0 #ffffff No change 1 #0000ff Permanent 2 (doi:10.1038/nature20584) 代码: var dataset = ee.Image('JRC/GSW1_2/GlobalSurfaceWater'); var visualization

    31410编辑于 2024-02-02
  • 来自专栏可观测系列

    观测系列——大模型在 IT 运维可观测性的应用

    直达原文:【可观测系列】大模型技术在可观测领域的应用01.前言随着云计算、分布式、微服务等前沿技术的广泛应用,现代IT系统架构已经从传统的单体结构演进到分布式和云原生架构。 02.大模型在可观测领域的应用借助嘉为蓝鲸底座LLMOps开发平台,企业能够快速对接异构大模型,并利用其提供的智能体开发框架,结合私域知识和观测流数据,实现智能化运维场景的快速扩展。 2)事中:分析与处置告警根因:深入分析告警的根本原因,快速定位问题源头。告警关联:整合相关联的告警信息,帮助全面理解问题背景,便于更准确地判断状况。 03.场景说明小鲸观测助手,是基于嘉为蓝鲸LLMOps平台,结合嘉为蓝鲸全栈智能观测中心,自主研发的一款基于大模型的观测平台辅助分析工具。 2)日志正则提取规则编写大模型通过学习既有正则编写规则,自动生成精准的正则表达式模板。

    93610编辑于 2025-04-09
  • 来自专栏Tencent Serverless 官方专栏

    Serverless 可观测性升级,云函数支持应用性能观测 APM

    云函数 + APM,进一步提升 Serverless 可观测性 Serverless 产品免运维、弹性扩缩容的产品特性,意味着由平台来进行请求的调度、资源的分发,也意味着用户在进行问题定位、异常排查时需要依赖平台提供的可观测性功能 对于具有更细粒度、更定制化的可观测性诉求的场景,近日 云函数 SCF 与腾讯云应用性能观测 APM 团队合作,推出了云函数应用性能观测功能,现已正式发布,访问 SCF 控制台启用 APM 配置即可体验。 丰富的指标监控,打造多个函数应用级全局观测 SCF 与 APM 集成,将可观测性的重点从单个系统转为整体系统。 2. 链路追踪能力 一个 Serverless 应用可能包含一个或多个函数、API 网关及其他云服务或者第三方服务。 云函数 SCF 控制台:https://console.cloud.tencent.com/scf 2. 在页面上方选择地域,单击需要进行应用性能观测配置的函数名。 3.

    1.1K20编辑于 2021-12-18
  • 来自专栏AIOps

    金融行业可观测案例:业务交易链路可观测建设指南

    2)依赖链路的深度观测跨系统调用拓扑:自动绘制业务流经的系统节点(如支付业务涉及风控、清算、渠道等系统);节点健康状态染色:实时标记故障节点;调用链追踪:单笔交易全链路追踪(如证券委托从前端到交易所网关的路径 2)故障定位实战案例案例:某省城商行业务支付延迟故障。背景:支付业务高峰期响应耗时飙升,影响客户体验。 (2)日志联动根因分析联动日志中心检索风控系统日志,通过联合查询关联支付系统日志;关键词分析发现“数据库锁等待”高频出现,定位SQL并发瓶颈。 (2)关键挑战与应对挑战1:数据孤岛现象:业务指标与资源监控分离,无法关联分析。方案:通过统一观测元模型(如CMDB关联业务系统与主机资源),实现下钻分析。 挑战2:动态架构追踪难现象:容器频繁启停导致故障现场丢失。方案:APM自动注入TraceID,关联日志与资源标签(如K8s Pod IP),留存动态环境快照。

    35010编辑于 2025-06-12
  • 来自专栏OI

    YbtOJ 755「分治」变量观测

    YbtOJ 755「分治」变量观测 题目链接:YbtOJ #755 小 A 有 n 个变量,分别为 x_{1\sim n}。 接下来依次发生了 q 次事件,分为两种形式: 1 t k q[1] q[2] ... q[k]:假设这是第 p 次 1 操作,则设置一个编号为 p 的观测员,直到 x_{q_1},x_{q_2},\cdots x_{q_k} 与当前相比变化总值大于等于 t 时结束观测。 (保证同一个观测员的 q_{1\sim k} 各不相同) 2 i v:给 x_i 加上 v。你需要输出所有在这次操作结束观测观测员编号。 强制在线。 n,m \le 2\times10^5,1\le k\le3,1\le t,v\le10^6。

    49320编辑于 2022-09-19
  • 来自专栏让技术和时代并行

    什么是可观测

    事实上,可观测性非常重要,到2021年2月,云原生计算基金会(CNCF)列出了102个可观察性项目。可观测性不仅重要,而且昂贵。Netflix被戏称为一个产生大量日志的平台,同时也是一个流视频平台。 可观测性之所以昂贵,有两个原因: 可观测性比被观测系统至少可靠一个数量级。否则,你将继续调试你的可观察性堆栈,而不是使用它来保持你的应用程序运行。 在这篇文章中,让我们深入探讨一下可观测性:它是什么,不同类型的可观测性,以及实现可观测性在技术上意味着什么。在这篇文章的最后,你会明白为什么你应该抵制住诱惑,然后在可观测性上节省资金。 可观测性通过测量阶段闭合反馈回路。它允许您的团队对应用程序进行快速更改,快速适应其用户基础和环境,而不会产生不必要的意外。良好的可观测性可以将凌晨2点被唤醒转换为日常检查。 这是凌晨2点或求救事件吗?也就是说,如果发生这种情况,应该叫醒某人吗?或者这是一个泛泛的事件,可以在白天处理? 幸运的是,像Prometheus这样的项目不仅能发出警报,还能进行预测。

    89420编辑于 2023-03-18
领券