首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏可观测系列

    企业应用观测中枢建设

    企业应用观测建设路径面对上述挑战,企业常常会踏上构建可观测性工具体系的征途,而在融合ITIM基础监控之后,针对应用的可观测能力补充往往在中间阶段进行建设落地。 针对应用的可观测体系,首先需要建设狭义上的应用监控工具(APM),通过请求跟踪(Trace)标记,实现应用架构可视化、应用流量指标化、请求记录数据化;在观测数据补足后,应用观测进入下一阶段建设目标——数据联动 企业应用观测建设思路总体定位链路追踪的工具,即前面提到的APM,因为其自动化生成了一系列数据之间的关联关系,在整个可观测体系中是一个类似中枢的存在。 由此可见,在构建全面的可观测性体系时,孤立地看待与应用性能管理(APM)工具的建设是一种偏颇的思路。 结语以上,我们介绍了比较成熟理想的企业应用观测中枢建设方案。总的来说,应用观测领域目前尚处于快速发展、落地探索阶段,各企业在建设应用观测中枢的过程中不应操之过急。

    73010编辑于 2024-07-29
  • 企业应用观测中枢建设

    企业应用观测建设路径面对上述挑战,企业常常会踏上构建可观测性工具体系的征途,而在融合ITIM基础监控之后,针对应用的可观测能力补充往往在中间阶段进行建设落地。 针对应用的可观测体系,首先需要建设狭义上的应用监控工具(APM),通过请求跟踪(Trace)标记,实现应用架构可视化、应用流量指标化、请求记录数据化;在观测数据补足后,应用观测进入下一阶段建设目标——数据联动 完整可观测体系的结构与应用观测的占位企业应用观测建设思路总体定位链路追踪的工具,即前面提到的APM,因为其自动化生成了一系列数据之间的关联关系,在整个可观测体系中是一个类似中枢的存在。 由此可见,在构建全面的可观测性体系时,孤立地看待与应用性能管理(APM)工具的建设是一种偏颇的思路。 结语以上,我们介绍了比较成熟理想的企业应用观测中枢建设方案。总的来说,应用观测领域目前尚处于快速发展、落地探索阶段,各企业在建设应用观测中枢的过程中不应操之过急。

    37910编辑于 2025-06-17
  • 来自专栏可观测系列

    观测系列——大模型在 IT 运维可观测性的应用

    直达原文:【可观测系列】大模型技术在可观测领域的应用01.前言随着云计算、分布式、微服务等前沿技术的广泛应用,现代IT系统架构已经从传统的单体结构演进到分布式和云原生架构。 据统计,绝大部分的故障涉及数据库、网络、应用代码等多个技术栈层面,人工排查通常需要切换使用5至8种不同的运维工具才能找到原因。 02.大模型在可观测领域的应用借助嘉为蓝鲸底座LLMOps开发平台,企业能够快速对接异构大模型,并利用其提供的智能体开发框架,结合私域知识和观测流数据,实现智能化运维场景的快速扩展。 5)告警智能知识推荐基于内置运维知识库,可以根据告警事件内容结合知识库找出相关联的知识,并给与解决方案的推荐。 实现效果如下图:04.前景展望通过上述可观测性与大模型结合的应用场景,已经充分展现了大模型在运维领域的巨大潜力。展望未来,大模型的作用将不再局限于作为观测的辅助工具,而是逐步迈向更高层次的智能化阶段。

    84710编辑于 2025-04-09
  • 来自专栏Tencent Serverless 官方专栏

    Serverless 可观测性升级,云函数支持应用性能观测 APM

    对于具有更细粒度、更定制化的可观测性诉求的场景,近日 云函数 SCF 与腾讯云应用性能观测 APM 团队合作,推出了云函数应用性能观测功能,现已正式发布,访问 SCF 控制台启用 APM 配置即可体验。 腾讯云应用性能观测(Application Performance Management,APM)是一款应用性能管理平台,基于实时的多语言应用探针全量采集技术,为您提供分布式应用性能分析和故障自检能力, 实时了解并追踪应用性能情况,提升用户体验。 02. 丰富的指标监控,打造多个函数应用级全局观测 SCF 与 APM 集成,将可观测性的重点从单个系统转为整体系统。 在页面上方选择地域,单击需要进行应用性能观测配置的函数名。 3. 在“函数配置”页面,选择右上角的编辑,勾选启用应用性能观测。(首次启用请按照控制台引导完成授权流程) 4. 5. 单击 保存 完成函数应用性能观测配置,函数调用后即可在 APM 控制台看到平台默认上报的链路信息。 6. 代码自定义上报方式请 点击阅读原文 查看。

    1K20编辑于 2021-12-18
  • 来自专栏腾讯云可观测专栏

    【重磅发布】应用性能观测(APM)

    导语 腾讯云云监控于近日发布了两款产品:应用性能观测(APM)、前端性能监控(RUM),帮助用户解决调用链追踪问题,减少 MTTR(平均修复时间),以及帮助提升用户在 Web、小程序端的使用体验。 APM 集成微服务团队丰富的业务场景沉淀以及云监控打磨多年的高性能数据处理中台,云监控 - 应用性能观测平台(APM)正式开放测试。 02 应用性能监控 应用依赖拓扑自动发现 依托分布式调用链追踪的模型,自动发现应用逻辑拓扑,以应用为基本单元,绘制全局拓扑关系。 可视化的展示繁杂应用间依赖关系,实时数据钻取,智能应用状态分析迅速定位影响业务的关键 / 瓶颈应用,组件。 同时智能监测 TOP5 耗时和 TOP5 错误率接口,及时主动上浮问题,加速用户聚焦过程,实现应用性能的精准监控。 ?

    2K20发布于 2021-07-16
  • 来自专栏云原生应用工坊

    观测平台-3: 应用系统监控项

    概述 在讨论以容器应用为视角的监控和告警时,有几个关键点需要注意。首先,传统的基于主机资源的监控方法(如使用率和负载监控)可能不再适用于动态、多副本的Pod环境。 多维度数据聚合: 结合来自不同来源(如应用日志、性能指标、网络流量等)的数据,进行多维度分析,以获得更全面的视角。 任务 (Task) 实现对基础设施和应用的全面监控。 在确保SLO的前提下,减少无效告警。 行动 (Action) Prometheus 和 Alertmanager 配置: 使用 Prometheus 监控基础设施和应用指标。 结果 (Result) 实现了对基础设施和应用的全面监控。 有效减少了无效告警,提高了运维效率。 提高了系统的稳定性和可靠性。

    66020编辑于 2023-12-13
  • 来自专栏腾讯云可观测专栏

    应用性能观测(APM)上新速递

    【New】我们知道您正在忧愁,思考着如何增加快速聚焦应用性能状况较差的实例? 【New】我们知道您正处在外网上报,每日担心需流量费用是否超支?内网上报方式如何快速迁移至外网? 01 丰富图表展示方式 APM 丰富了应用详情页图表展示方式,更高效地协助您观测应用性能情况,更详情如下: a. 吞吐量模块支持展示状态分解视图。 您可以清楚 的观测到该服务在请求时的状态,把握当前应用的健康情况。 b. 响应时间模块支持展示耗时分布视图。 该视图将调用接口次数对比耗时时间分布分解,用户可清楚的观测出大部分接口耗时分布情况,您还可点击柱状图数据进行下钻分析,了解耗时长的接口情况。 c. 新增耗时分解模块。 02 增加实例监控概览功能 在应用详情页中,新增了的实例监控概览功能。支持按照响应时间,吞吐量、错误率等维度对比实例间性能差异,通过排序并展示 top5 实例的健康状态。

    77040发布于 2021-09-03
  • 来自专栏喔家ArchiSelf

    解读大模型应用的可观测

    大模型应用并不神秘,仍然是一种软件系统。就像使用一个库或者web服务,以及SaaS乃至云计算服务,我们需要对库、服务、SaaS以及平台进行评估、监控和追踪,这可以被粗略地认为是它们的可观测性。 对大模型应用而言,也是如此。 1. 大模型应用的评估 如果评估一个传统的机器学习模型,我门一般会检查模型的输出或预测的准确性。 为了提高人工反馈的效率和便捷性,大模型的可观测性软件通常提供一个接口,用于收集和整理人工反馈。这个接口可以帮助数据科学家和工程师更方便地提交反馈,同时也使得反馈的过程更加标准化和规范化。 大模型应用的监控 虽然大多数 大模型 应用至少经历了某种形式的评估,但较少有实现了连续监视的应用。我们分解监视的组成部分,试图构建一个面向大模型应用的监视系统,进而实现其完整的可观测性。 本文这涉及的工具、技术和度量指标,或许可以视为实现大模型应用观测性的基石。基于此,我们可以对每一个概念展开更加深入的研究与实践。

    90710编辑于 2024-06-03
  • 来自专栏coderidea

    构建可观测架构,从这5个方面着手

    随着系统复杂度的提升,“可观测性”(Observability)成为架构建设的重要原则之一。那么构建一个可观测的系统架构需要做哪些工作呢? 本文将从以下5个方面介绍构建可观测架构的主要考虑: 定义指标和度量,明确关键业务指标需求 首先要确定核心业务指标,比如请求响应时间、错误率、吞吐量等。 明确指标后,就可以设计如何采集和展示这些观测数据。通过定义指标和度量,可以帮助我们了解系统的运行情况,并及时发现和解决问题。 实现告警和监控 构建可观测架构的最后一步是实现告警和监控。通过设置告警规则和监控项,可以帮助我们及时发现和解决系统中的问题。 构建一个可靠、安全、高效的可观测系统是每个架构师必备的技能。需要全面考量从遥测数据采集、处理到展示的多个环节。

    65060编辑于 2023-09-07
  • 来自专栏yuyy.info技术专栏

    十一、可观测性——你的应用健康吗

    需求来源 当把应用迁移到 K8S 后,如何保障应用的健康与稳定? 提高应用的可观测性 资源使用情况 应用自身的健康 实时日志,方便进行问题的诊断和分析 提高应用的可恢复能力 出现问题时首先是降低影响范围 例如 pod 不可用时,service 会在负载均衡里去掉该 应用远程调试 Service 远程调试 让集群调用本地应用 开源组件 Telepresence,它可以将本地的应用代理到远程集群中的一个 service 上面 暴露集群服务,让本地调用 通过 port-forward 的方式将远程的应用映射到本地的端口上,通过访问本地端口就可以访问远程的服务。 应用处于failed状态,没有定位到原因,再拉起一次不还是会failed? 应用一般不会马上 failed,在特定情况下才会挂,这种时候再拉起就能再撑一阵,否则影响整个服务。

    59430编辑于 2022-09-21
  • 来自专栏FunTester

    Java应用全链路追踪可观测性实践

    在现代软件开发中,理解应用程序的运行时行为对于维护性能、诊断问题和确保可靠性至关重要。追踪和可观测性已成为实现这些目标的关键实践。 本文探讨了Java应用程序中的追踪概念,深入研究了代码插桩技术,并展示了它们如何促进全栈可观测性。 理解追踪和可观测性 追踪涉及记录应用程序中请求或事务的流程。 这三者共同为应用程序的行为和健康状况提供了全面的视角。 Java应用程序,特别是那些基于微服务的应用程序,可能很复杂且难以调试。 Java中的插桩技术 插桩是向代码中添加观测能力的过程。在Java中,可以使用几种技术来实现: 手动插桩 开发者明确添加代码来记录追踪数据。 实现全栈可观测性 全栈可观测性意味着跨前端、后端、数据库和外部服务的可见性。 集成追踪、日志和指标 结合所有三大支柱以获得全面的洞察。

    22110编辑于 2026-01-05
  • 随时就绪的应用观测性 Dashboard

    当用户初次安装 DeepFlow、业务变更、扩容缩容时,随时都可以查看这个 Dashboard,及时发现应用的性能和稳定性隐患,深刻感受基于 eBPF 的零侵扰可观测性带来的便捷。 这些能力都是你在一键安装完 DeepFlow 的五分钟后就能立即获取的,真·开箱即用的应用观测性。 04什么是 DeepFlowDeepFlow 是云杉网络开发的一款可观测性产品,旨在为复杂的云基础设施及云原生应用提供深度可观测性。 DeepFlow 基于 eBPF 实现了应用性能指标、分布式追踪、持续性能剖析等观测信号的零侵扰(Zero Code)采集,并结合智能标签(SmartEncoding)技术实现了所有观测信号的全栈(Full 使用 DeepFlow,可以让云原生应用自动具有深度可观测性,从而消除开发者不断插桩的沉重负担,并为 DevOps/SRE 团队提供从代码到基础设施的监控及诊断能力。

    46000编辑于 2024-03-11
  • 来自专栏重归混沌

    谈谈观测

    随着这几年我对 eBPF、Prometheus 等工具的深入了解,我才逐渐意识到“可观测性”这个词背后蕴含的意义。 很早以前,我就在 Linux 上使用 /proc/、top、sar 等工具来排查问题,却从未意识到,“观测”竟然是一门独立的学问。 这也正是“可观测性”弥足珍贵的原因之一:当系统出问题时,我们可以通过系统本身提供的可观测能力,去追踪和理解到底发生了什么。 不得不佩服 Linux 的设计者们,/proc 文件系统的设计在多年以前就已体现出极强的可观测性理念。 我并不想讲怎么样实现可观测性,毕竟我不是专家。 但我想谈谈观测给了我们一个什么样的视角。 之所以举这三个例子,是希望引出这样一个宏观的抽象视角: 在一台计算机硬件上,运行着操作系统;在操作系统之上,运行着我们的应用程序;而我们的应用程序在设计上,往往又被进一步划分为多个抽象层。

    7810编辑于 2026-03-25
  • 来自专栏初代庄主

    观测 CPU

    背景 通常在分析性能问题时,我们会用 `top , sar , perf` 来观测 CPU 的使用情况;多数据情况下是观测别人的程序。 如果从熟悉工具的角度来看,观测自己的程序,根据观测到的结果再结合程序源代码,对于我们掌握性能分析工具会更有帮助。 cpu 核心,每一秒打印一次报告,共打印 5 次,命令可以这样写。 sar -P ALL 1 5 平均时间: CPU %user %nice %system %iowait %steal %idle 平均时间: all 0.00 99.40 平均时间: 4 0.40 0.00 0.00 0.00 0.00 99.60 平均时间: 5

    53040编辑于 2022-05-17
  • 来自专栏灵光独耀

    测试跑通应用性能观测通过 Skywalking 协议上报

    产品文档链接:https://cloud.tencent.com/document/product/1463/57876#.E6.AD.A5.E9.AA.A44.EF.BC.9A.E4.BF.AE.E6.94 由于当前大陆环境并不是很顺畅,所以本次跑通用的是香港主机, SA2 2H4G 5M 安全组选择放通全部端口,方便演示。 @VM-32-5-centos php-7.3.0]# service php-fpm start 校验是否成功 [root@VM-32-5-centos php-7.3.0]# netstat -tnl 应用性能观测控制台 应用监控 > 应用列表页面,单击接入应用,在接入应用时选择 PHP 语言与 SkyWalking 的数据采集方式。 @VM-32-5-centos protobuf]# yum install boost-devel 还有一个 [root@VM-32-5-centos protobuf]# yum install autoconf

    1.7K41编辑于 2021-12-13
  • 来自专栏深度学习与python

    作业帮服务观测之基础观测能力

    如何构建用户体验,帮助用户理解、信任并有效使用 AI 应用?如何在多代理系统中管理代理交互?如何降低计算成本以使你的产品更可持续? 我将一些关键的新兴模式分成 5 个类别,当你扩展你的 AI 系统时,它们可以相互促进。 虽然我在文中讨论的主要是基于文本的交互,但你也可以将这些模式应用于 多模态应用。 图 5:可编辑输出模式示例 迭代探索模式 永远不要假设第一次输出就能满足用户的需求。要提供“重新生成”或“再试一次”按钮,以便用户可以快速迭代。对于图像生成,同时显示多个选项。 关注不断增长的创新型 AI 模式集,不断地将它们添加到你的武器库中,这样你就可以解锁更强大、更专业的应用

    21610编辑于 2025-06-08
  • 来自专栏嘉为动态

    探索可观测性:AIOps中的时序数据应用

    背景随着科技的发展,时序数据在我们的认知中占据越来越多的位置,小到电子元件在每个时刻的状态,大到世界每天的新冠治愈人数,一切可观测,可度量,可统计的数据只要带上了时间这个重要的因素就会成为时序数据。 1)来源在运维领域,为了保障整个软件系统的正常运行,需要在系统的各个层次定义要观测的时序数据,即定义要监控的指标。一般地,成熟的监控指标体系的搭建是以CMDB为骨架,以监控指标为脉络而进行的。 2)在AIOps中的应用方向指标(Metric),日志(Log),调用链(Trace)是运维领域中产生的较为普遍的三种数据类型,因此基于运维数据之上的AIOps对于指标数据的利用也非常广泛,下面对应用成熟度比较高的两个方向进行探讨 ,同理下图左侧的波动幅度是不变的(测量值最大是10,最小是0,围绕均值5最大波动幅度为5);第t项与第(t+m)项数值的协方差不变,代表着固定数据间隔下数据的走势是相同的,可以简单的理解为数据的周期是不变的 因为对平稳序列进行分析很容易,因为可以假设未来的统计特性与目前观测到的统计特性是一致的,这使得大多数时间序列算法都以这样或那样的方式去利用这些属性(例如均值或方差)。

    1.8K30编辑于 2022-12-01
  • 来自专栏AIOps

    智能运维可观测性中的机器学习应用

    直达原文:智能运维可观测性中的机器学习应用01.引言在数字化转型浪潮下,企业IT系统复杂度激增,传统运维模式面临告警风暴、故障定位低效等挑战。 机器学习在智能运维中的核心应用场景如下:1)异常检测与指标预测在智能运维场景中,异常检测是保障系统稳定性的核心能力。 例如,长短期记忆网络(LSTM)和贝叶斯算法被广泛应用于单指标异常检测,通过分析历史数据中的时序规律,精准识别CPU使用率、内存负载等指标的异常波动。 机器学习技术通过多指标异常检测模型(如Transformer架构),综合分析数据库、网络、应用代码等多维度数据,揭示潜在关联性异常。 02.总结未来,机器学习在智能运维可观测性中的核心价值将体现在从“辅助工具”到“决策大脑”的升级。

    33610编辑于 2025-05-28
  • 来自专栏云云众生s

    Web3应用的可观测性有何不同

    在分散式应用程序中,可观测性提出了几个需要解决的独特挑战,而传统解决方案可能不足以应对。 dApp 依赖于去中心化服务器,而不是基于集中式服务器的传统 (Web2) 应用程序。 然而,这种新范式给 应用程序性能监控 和可观测性带来了挑战。 让我们探讨如何使用 Scout APM 在基于 Django 的 Web3 应用程序中实现可观测性的主要支柱——日志记录、指标 和 跟踪。 去中心化应用程序中的可观测性有何不同? 这使得密切监控和可观测性变得极其重要,以便在数据 写入区块链 之前检测和防止问题。 分布式数据 传统 Web 应用程序依赖于集中式服务器,而 Web3 dApp 依赖于全球分布且去中心化的节点网络。 具有此功能的可观测性解决方案将为你提供跨层可见性。 网络分析 网络分析至关重要,即使对于传统的 Web 应用程序也是如此。在 Web3 dApp 这样的分布式环境中,它们甚至更为重要。

    28110编辑于 2024-03-28
  • 来自专栏云云众生s

    为移动应用观测性选择手动或自动埋点

    开发一个应用程序来发送关于自身的信息意味着添加埋点。应用程序可以发送诸如指标、日志和追踪之类的遥测数据,以允许团队解释应用程序的内部状态。这个概念是可观测性中收集的基础。 你可以监听应用程序启动(如上所述),还可以监听视图的加载、网络请求的开始和结束、崩溃等等。如果导入的库完成了所有工作,那么可观测性将非常棒。 移动应用工作流程以及你可以控制的内容 但是,要理解你的移动应用程序,需要的不仅仅是监控移动应用程序开发中普遍存在的信号。 最后,也是最重要的一点,应用程序的特定流程来自应用程序开发人员的意图,只有他们才能为此提供埋点。换句话说,应用程序的构建方式完全是为用户的预期用途而定制的。这就是构建新应用程序的意义所在。 这不一定是可观测性工程师所熟悉的服务内部上下文。相反,它更人性化:检测需要反映用户在会话(即应用程序的一次使用)中的旅程。 以电子商务应用程序中完成结账流程为例。

    33510编辑于 2025-03-10
领券