腾讯端服务(TDS)正在做一件更系统性的事——将 AI 能力植入端领域 DevOps 的每一个关键节点,从设计到运维,构建一条真正自动流转的智能链路。 这不是单一产品的 AI 化,而是一次对整条研发流水线的系统性智能升级。从六个维度看 TDS 的 AI 布局1. 后端:通过多智能体(Multi-Agent)协同,实现协议自动理解 → 接口自动建模 → 流量智能生成 → 自主压测/接口测试 → 缺陷自动诊断的全链路自主测试。 Fiber 是全链路的流程编排引擎。自然语言描述即可生成可运行工作流,支持对话式暂停、重启、动态增减,流程关键节点可嵌入 Agent 自主决策,并能自动定位流程卡点提供效率优化建议。 TEDi 提供研效数据的全链路采集与 AI 分析,对话式提问即可获取交付瓶颈洞察,并自动生成研效分析简报——让管理决策不再依赖人工汇总报表。
当AI真正接管DevOps:腾讯TDS的全链路智能升级编者按:大多数团队谈论AI辅助研发,停留在"让AI写几行代码"的层面。 后端:通过多智能体(Multi-Agent)协同,实现协议自动理解→接口自动建模→流量智能生成→自主压测/接口测试→缺陷自动诊断的全链路自主测试。AI从辅助工具变成了测试的主体执行者。 正在开发的「问题自动发现和修复」能力更为激进:AI自动完成归因、方案生成、代码修复、MR提交、效果追踪、经验沉淀的全链路闭环——积压多年的长尾问题,将从「无人处理」变为「系统自动消化」。 Fiber是全链路的流程编排引擎。自然语言描述即可生成可运行工作流,支持对话式暂停、重启、动态增减,流程关键节点可嵌入Agent自主决策,并能自动定位流程卡点提供效率优化建议。 它不是某一阶段的工具,而是贯穿DevOps全程的智能协同底座。TEDi提供研效数据的全链路采集与AI分析,对话式提问即可获取交付瓶颈洞察,并自动生成研效分析简报——让管理决策不再依赖人工汇总报表。
一、产品定位与核心亮点 技术定义:以AI为驱动、数据为燃料、用户为中心的全链路智能营销新范式,通过Magic Agent全链路营销智能体与MAGIC增长方法论(Mine发掘需求、Architect编排旅程 、Generate生成内容、Interact互动触达、Check核查复盘),实现营销全链路智能化升级。 核心技术属性:整合CDP客户数据平台、MA营销自动化、SCRM企微互动、FA融合分析四大基础产品,叠加AI能力(智能埋点、标签、分群、内容生成、互动、分析等),构建“基础产品智能化+全链路智能体”双轮驱动体系 产品优势 全链路智能覆盖:Magic Agent贯穿人群圈选、旅程编排、内容生成、企微互动、活动分析全环节,替代多角色营销团队。 、Magic Agent全链路能力。
腾讯云上海城市峰会AI产业应用分论坛聚焦"全链路大模型技术方案"展开深度研讨。 它使用OCR、LLM+RAG、MLLM(多模态大语言模型)等多种技术能力,轻松处理企业级图文、视频多模态复杂知识;配备了完善的工具链,整体简单易用。 打造面向实战的大模型训练平台 腾讯云TI 平台为客户提供面向实战的一站式大模型精调部署解决方案,致力于构建面向实战的大模型训练平台,为客户提供从数据准备、模型精调、效果评测到模型部署的全流程工具链,帮助用户精调出真正可用的大模型 技术底座支撑全链路能力 腾讯云智算,是业内首个基于 AI 原生应用驱动的下一代云基础设施,打造算存网数一体的高性能智算底座,集结高性能计算集群HCC、高性能推理实例、智能高性能网络IHN、高性能存储、训推加速套件 目前,腾讯云多模型行业方案已深度融入办公协作、内容生态、智能客服、专家助手等场景,全链路大模型技术方案也已在金融、医疗、教育、政务、出行、文旅、传媒等30多个行业落地,持续推动AI技术从"可见"向"产业级可用
前言 之前断断续续写过一些全链路压测相关的技术文章,很多同学评价还不错。朋友建议我写个系列,基于自己的落地实践经验,对全链路压测做个系统性的梳理总结。 定义:如何理解全链路压测 PS:这里的定义是我基于自己对生产全链路压测的了解和实践总结得来的,仅代表个人观点。 1、什么是全链路压测? ,数据流转性无法保证,数据多样性也存在部分问题; ---- 那么,要解决差异带来的不稳定因素,最终的选择就是生产全链路压测: 挑战:如何落地生产全链路压测 虽然全链路压测解决了传统压测过程中的种种痛点 流程:生产全链路压测落地实践 生产全链路压测的整个流程,大致可分为三个环节,每个环节的主要事项如下: 能力建设:生产压测能力演变历程 生产全链路压测的本质是能力建设的技术工程,不是一蹴而就。 7、生产全链路压测 通过上面几个步骤,从基础的能力建设、体系建设,到线上的监控能力、只读场景练兵以及数据隔离到试点验证,最终才能达到生产核心链路全链路压测的过程。
SRT(Secure Reliable Transport)是由Havision联合Wowza制定的一个开源、免版权费的基于UDP的传输协议,目的是安全和可靠的解决TCP在长距离链路传输中延迟高、抗抖动性差的问题 为了和现有云直播产品体系完美兼容,腾讯视频云实现SRT流直接接入直播CDN系统,如上行推流采用SRT,下行仍可使用常规的rtmp/http-flv/hls,或者全链路使用SRT。 通过不断优化,腾讯视频云快速将SRT集成到直播CDN系统,这也是业内首次将SRT集成在全链路直播流媒体系统中的各个环节,最终为英雄联盟S9、阅兵、双11等重大赛事和活动提供了强有力的技术保障,应对了众多低延迟
——来自百度百科 本篇文章要说的全链路压测SOP,实际上就是我在实践全链路压测的过程中,对实践经验和教训的一个总结。 全链路压测(1):认识全链路压测 全链路压测(2):方案调研和项目立项 全链路压测(3):技术改造和测试验证 全链路压测(4):全链路压测的价值是什么? 全链路压测(5):生产全链路压测实施全流程 全链路压测(6):确认范围和识别风险 全链路压测(7):核心链路四问 全链路压测(8):构建三大模型 全链路压测(9):容量评估和容量规划 全链路压测(10) :测试要做的准备工作 全链路压测(11):聊聊稳定性预案 全链路压测(12):生产压测必不可少的环节 全链路压测(13):高可用和性能优化 再加上本篇的生产全链路压测SOP思维导图,就是整个系列的内容。 最后,重申一下我对全链路压测的部分认知: 全链路压测是一个技术工程,而非单纯的测试手段; 全链路压测只适用于部分企业和业务类型,而非一个银弹; 全链路压测的落地并非一蹴而就,需要较好的技术基础设施建设做保障
前言 前面的几篇文章从生产全链路压测的定义,内部立项和技术调研,聊到了测试验证以及全链路压测的对企业业务和技术团队的价值,算是整体上的构建一个认知的概念。 从这篇文章开始,会进入具体的落地实践环节。 这篇文章中,我会介绍生产全链路压测的落地实施全流程,即每个环节要做什么事情。 四大阶段 如果将生产全链路压测作为一个阶段性的技术项目来看,全链路压测从开始到项目结束,需要经过四个阶段。 整体的实施流程图如下所示: 接下来我来为大家解密,生产全链路压测落地实施,在不同的阶段都会做哪些事情。 筹备阶段 确定业务范围 一般来说线上实施线上全链路压测之前,要明确本次压测需要验证的业务范围。 核心业务定义 出问题会影响其他业务链路; 流量较高且出现问题会影响整体业务目标的达成; 核心项目定义 前面提到了生产全链路压测是个复杂的技术项目,那么如何定义这种技术项目呢?
RpcID RPCId用链路调用顺序来递增。 阿里云相似产品:Tracing Analysis 效果图: ? image.png
--全链路跟踪 sleuth zipkin --> <dependency> <groupId>org.springframework.cloud</groupId
Zipkin是SpringCloud官方推荐的一款分布式链路监控的组件,使用它我们可以得知每一个请求所经过的节点以及耗时等信息,并且它对代码无任何侵入,我们先来看一下Zipkin给我们提供的UI界面都是提供了哪些信息 zipkin首页为我们提供了对于调用链路的搜索查询及展示的功能 ? 第二个选项卡里提供了历史数据的导入功能 ? 第三个选项卡里展示了各个微服务之间的关系 ? 我们再次回到首页,我们点开一个调用链路之后就会看到此次链路调用的详情 ? 现在我们点开详情中的一个service,可以看到此次调用在这个微服务中的详细信息。 ?
作者:vivo 互联网前端团队- Yang Kun本文是上篇文章《Node.js 应用全链路追踪技术——全链路信息获取》的后续。阅读完,再来看本文,效果会更佳哦。 本文主要介绍在Node.js应用中, 如何用全链路信息存储技术把全链路追踪数据存储起来,并进行相应的展示,最终实现基于业界通用 OpenTracing 标准的 Zipkin 的 Node.js 方案。 2.2 zipkin 架构官方文档上的架构如下图所示:为了更好的理解,我这边对架构图进行了简化,简化架构图如下所示:从上图可以看到,分为三个部分:第一部分:全链路信息获取,我们不使用 zipkin 自带的全链路信息获取 ,我们使用 zone-context 去获取全链路信息第二部分:传输层, 使用 zipkin 提供的传输 api ,将全链路信息传递给 zipkin第三部分: zipkin 核心功能,各个模块介绍如下: 三、Node.js 接入 zipkin3.1 搞定全链路信息获取这个我在 《Node.js 应用全链路追踪技术——全链路信息获取》 文章中,已经详细阐述了,如何去获取全链路信息。
前言 前面的文章介绍了全链路压测的落地实施全流程,其中有个环节我特别提到了它的重要性,同时这也是本篇文章的主题:核心链路梳理。那什么是核心链路?为什么要确定核心链路?如何进行核心链路梳理? 梳理核心链路的目的又是什么?这篇文章,我会给你答案。 什么是核心链路? 之前在一些线下沙龙分享或者线上直播时候,很多同学都会问我一个问题:什么是核心链路?好像这个词有种魔法,很难让人去理解。 这么说比较拗口,再直白一些就是:哪些接口会影响用户下单支付,哪些就是核心链路。 下面附一个常见的电商企业核心链路流程图,供大家参考。 为什么要确定核心链路? 流量模型 我在前面的文章《生产全链路压测实施全流程》中有提高转化技术指标的一个案例,这里再次回顾下: 客单价为500,单日GMV为10亿,那么支付订单量为10亿/500=200W; 假设日常支付订单量为 文末回顾 这篇文章主要聊了全链路压测在备战阶段最重要的一件事,核心链路梳理。其中提到了流量模型相关的内容,下篇文章,我会以全链路压测过程中需要梳理的三大模型为主题,为大家介绍它们。
在开始真正的介绍落地实践过程以及相关案例之前,我想和大家聊聊,我对全链路压测的一些认知,即:全链路压测在技术团队中的定位,以及它的价值是什么。 业务和技术是什么关系? 全链路压测对稳定性保障的价值 聊了这么多,回到文章顶部,我所要表达的内容,全链路压测的价值是什么? 通过生产全链路压测,可以串联稳定性保障的全流程,解决线上系统稳定性保障面临的种种挑战,它所带来的价值如下: 总结回顾 这篇文章介绍了我对技术和业务关系的理解,线上稳定性保障面临的挑战以及全链路压测在其中的价值 ,通过前面的几篇文章,从认识全链路压测到项目立项以及技术调研和测试验证,我试图从另一个视角来为大家揭秘全链路压测的另一面。 下篇文章,我会为大家介绍,全链路压测落地实践的整体流程。
什么是全链路监控? ,为全链路监控提供了理论指导。 OpenTracing 抽象出一套与编程语言以及业务逻辑无关的接口,对链路追踪领域各类元素的统一管理,从而实现完整的全链路监控。 我们只需要知道,优秀的全链路监控组件会尽可能的遵循 OpenTracing 标准,以获得更好的通用性以及扩展性。 可选方案 ---- 全链路监控组件如何获得链路相关的信息呢? 构建多语言全链路监控体系 ---- 除了Java语言外,ARMS还提供了PHP探针,PHP应用接入ARMS后,能够拥有和Java应用同样的全链路监控体验。
何为全链路测试? 个人认为,链路可以分为业务链路和调用链路,调用链路主要指从请求发起方到结果返回所途径各种服务/中间件产生的路径,可以理解为单系统下的某一功能模块。 而业务链路则是多个业务关联的场景组合产生的链路调用集合,例如淘宝添加购物车->提交订单->支付这个场景,所以全链路必然包含多个业务关联场景涉及的调用链路。 全链路下自动化成本更高,因为全链路用例涉及到多域的流程编排,处理服务间各种异常重试情况(超时、网络异常), 各域的输出断言,这无疑大大增加一条用例开发成本。 升级后全链路测试没什么问题,用例success。但是域内自动化有报错,发现jar包升级没做好向下兼容,故出错。 场景02. 综上,我们要正确看待全链路测试,不能迷信于全链路测试,觉得全链路测试通过就没啥问题了。
面临的挑战 除了上面所说的技术层面的问题,要开展全链路压测,还面临如下的几点挑战: ①、由于全链路压测涉及的系统及场景较多,因此需要跨团队沟通、跨系统协调改造,公司体量 越大,这一点难度就越大; ②、全链路压测涉及的系统较多 不过全链路压测的优点也很明显,比如:优化联络薄弱环节可以提高系统的可用性,容量规划可 以节省成本,提高效率。 开展前的准备工作 在开展全链路压测之前,我们需要做哪些准备工作? 因此需要通过监控分析等手段,得到日常流量场 景、峰值流量场景下各系统的流量以及配比,进行一定的放大,来作为全链路压测的流量参考模 型; ④、数据处理:全链路压测通常在生产环境进行,所以防止数据污染是必须考虑的问题 要开展全链路压测,那么一个合理高效可用的压测管理平台,是很有必要的,参考了很多全链路 压测的设计思路,我个人的想法中全链路压测平台的架构设计,主要由以下几部分组成: ①、Controller:主要任务为压测任务分配 具体的架 构设计图,可参考京东的全链路军演系统ForceBot的架构设计,如下图: ? 完成了上面的工作,接下来就可以开展全链路压测的工作了。
案例简述 Google开源的Dapper链路追踪组件,并在2010年发表了论文《Dapper, a Large-Scale Distributed Systems Tracing Infrastructure 》,这篇文章是业内实现链路追踪的标杆和理论基础,具有非常大的参考价值。 目前,链路追踪组件有Google的Dapper,Twitter 的Zipkin,以及阿里的Eagleeye (鹰眼)等,它们都是非常优秀的链路追踪开源组件。 链路追踪(Dapper) 当业务程序代码在线上运行时,实例A、实例B、实例C,他们直接可能从上到下依次调用,为了能很好的监控程序的调用链路,我们需要对调用链路进行追踪监控。 测试结果:hi1 链路追踪:7dfd98e8-c474-461c-87b9-1da3bf6072c2 org.itstack.demo.test.ApiTest.http_lt2 测试结果:hi2 链路追踪
:难以量化营销团队价值与回报 超过50%营销活动无法达成预期ROI,策略沉淀缓慢 人力精细化运营存在能力天花板:百万用户场景中,运营人员手动分群不足10组,导致超95%用户接收无差别信息 全链路智能体解决方案架构 ,赋能一线销售 活动分析Agent:智能归因与策略建议,科学迭代活动策略 落地案例验证显著业务增量 绝味食品AI会员营销实战 订单转化率达人工组3.1倍,实现夜宵党/学生党等客群个性化权益匹配 点击率提升90%|支付转化率提升20%|营收金额提升31% 技术底座升级实现四大突破 精准化运营破壁:Customer AI引擎支撑百万级用户分群 决策效率跃升:营销知识库+RAG技术辅助策略生成 基础产品智能化: CDP平台:智能埋点/标签/分群能力 MA引擎:AI内容合规检查+智能分流 科学评估体系:活动×任务×个体×用户价值四维策略评估模型 选择腾讯的核心价值支撑 微信生态深度融合 :覆盖企业微信/小程序/公众号等11亿用户触点 行业实践验证:服务江南布衣、周大福、一汽大众等200+头部企业 技术闭环能力:从数据融合(CDP)到效果归因(FA)的全栈营销云
以上问题已对系统稳定性、业务连续性产生了显著威胁,为彻底解决这些问题,我们对现有监控告警体系进行了全面升级和优化。构建智能化、精准化的全链路告警管理机制。 pod 告警试例对应生成的解决方案解决方案详情 (图略,请参考)AI 分析结果(图略)skywalking 告警处理 公司已引入 SkyWalking 作为分布式链路监控平台,用以监控服务性能、调用链路和异常状况 为充分利用其强大的监控能力,制定以下优化方案,实现从告警生成到智能化分析及推送的全链路闭环管理。 关联服务上下文信息确定告警涉及的具体服务名称、实例 ID 和调用链路;调用发布系统获取该服务的最新发布信息,包括:发布人员、代码分支、需求名称等,生成详细的 Markdown 格式描述。 b. AI 智能分析整合日志、调用链路、JVM 数据,交由 AI 模型进行智能分析:日志分析:提取关键异常堆栈,判断可能的根因;性能评估:对 JVM 数据进行分析,给出内存泄漏、线程阻塞或其他性能问题的诊断建议