扣子悄咪咪上线了模型管理和智能体评测两大模块,模型管理其实就是上一个版本的模型商店,智能体评测是新的一个功能。 模型管理 一、支持不同的模型选型。 目前支持不同种类的模型选型。 三、模型微调 部分模型支持微调,基于基座大模型,构建自己的微调数据集,训练属于自己的专业大模型。(没有训练过) 但是,这个更新,在我看来,对于构建垂直智能体很有意义! 一个该领域的专家模型,将意味着构建出来的智能体相比超级大模型更加聪明。 智能体效果评测 一个问题:什么样的智能体算是一个优秀的智能体? 扣子基于此,为每个智能体进行评测,为每个智能体构建领域评测数据集,设置不同的评测规则进行评估。 一、选择评测对象 选择已经发布的正式版智能体。 此处将会调用裁判模型,花费一定的模型token(火山点数)。 其实扣子的多智能体跳转里面也有这种类似的跳转判断模型。 评测结果如下:4 今天的体验就到这里了,晚安(bushi)。
如何打造通用性极强的交互架构,同时精准适配多样化、差异化的业务场景,是智能体业务落地的关键。 本文聚焦: • 大模型 IO接口的设计思路、架构方案及实际运行全流程。 大模型 IO 接口,依托 Strategy+Adapter 双层抽象架构,实现上层 Agent逻辑与下层LLM通信的完全解耦。 ReAct循环实质是: 通过预设的 max_iterations 循环调用大模型,模型思考返回结果和是否停止标志,如果需要调用工具结果后继续思考,就获取工具结果后继续循环。 当大模型认为已经得到最终的结果,就会输出最终结果,触发停止条件,跳出循环,完成整个 ReAct 循环。 在执行层,包装了两个输入和输出的类型。通过输入的参数配置,区分不同的业务需求。 # 起始消息列表 tools: ToolRegistry # 可用工具集 model: str # 模型名
多智能体角色的说明 最近在尝试 LLM Multi Agent(多智能体)的应用场景,下面给一个最近觉得还比较好用,也不是很麻烦的案例。 , clear_history=False, ) 大模型的选择 在这个脚本中,我使用的是 DeepSeek(我真是 DeepSeek 的热爱粉丝…),如下代码。 ,但是从我个人的使用经验来看,使用多家不同的模型,效果会更好。 我想可能是因为每一家的算法架构、训练过程和训练数据都不一样,所以最终的效果也是不一样的,使用不同的模型可以获取更大的多样性,在经过最后的总结,效果会比较好。 如果选择国内的模型,除了 DeepSeek,通义和豆包两个系列的模型也都挺好的,可以参考上面的代码进行配置。
智能体案例分析:IT新闻聚合智能体 IT新闻聚合智能体通过自动化技术抓取、分析和呈现最新的IT行业动态。这类智能体通常结合自然语言处理(NLP)和机器学习技术,从多个来源筛选高价值信息。 核心功能包括: 实时爬取主流科技媒体(如TechCrunch、Wired、The Verge) 自动分类(人工智能、网络安全、云计算等) 情感分析判断新闻倾向性 生成摘要简化阅读 典型应用场景: 投资机构追踪技术趋势 timestamp': datetime.now().isoformat(), 'source': 'TechCrunch' } 自然语言处理层 通过预训练模型进行文本分析
从2026年开始,行业关注的已不再是“更聪明的模型”,而是更可靠、更可控、更可协作的智能系统。 二、Agent的成熟:从对话工具,走向工作流执行者2026年成为AI元年的第二个关键原因,是智能体(Agent)第一次具备了可规模化的工作能力。 2️⃣企业落地的现实选择在真实工程中,从零构建Agent系统意味着:高昂的工程成本复杂的上下文管理工具权限与安全设计长周期的不确定性验证三、计算重心转移:端侧模型与垂直智能的崛起2026年的第三个显著变化 年的共识是:大模型负责通用能力,小模型负责专业交付。 当AI不再频繁登上头条,而是像电力、云计算一样,默默嵌入每一个业务流程时,真正的智能时代,才刚刚开始。
从软件工程的角度看来,智能体是一种基于大语言模型的,具备规划思考能力、记忆能力、使用工具函数的能力,能自主完成给定任务的计算机程序。 图 1. 智能体的开发框架 现在(2024 年 5 月)如果你想要开发一个 AI 智能体,已经比大模型爆发的初期方便太多了,随着 AI 应用需求的持续火热,智能体框架层出不穷。 智能体开发框架,会抽象和封装那些被高频使用的模块,如记忆能力、规划能力、RAG 能力、大模型调用等。使用智能体框架,可让帮助你快速搭建智能体。 下图的左侧是多智能体的协作流程,右侧是单智能体的工作流程。 图11 展望 随着大模型的百花齐放,LLM 会支持更长的上下文、更大的参数规模,其推理能力也会愈发强大。 因此,基于大模型搭建的智能体(AI Agent)的能力边界也在不断突破。
一、前言 随着智能体技术的迅猛发展,各个企业不断扩展其应用场景,满足日益增长的用户需求。百度推出的“文心智能体大赛”正是为了激发开发者的创新潜力,推动智能体技术在各个领域的实际应用。 通过这一平台,开发者能够利用文心大模型,针对自己的行业和应用场景,选择适合的开发方式,打造具有时代特征的产品。 二、快速创建智能体 进入文心智能体平台,我们可以选择基于“零代码”或者“低代码”创建智能体,这里各位可以根据自己的需求和情况来进行选择。 这里我们点击零代码创建智能体。 2.2 智能体Prompt配置 我们先简单来介绍一些Prompt智能体相关的一些知识: 智能体prompt指令是一种用于指导或激活智能体(如人工智能模型)执行特定任务的输入方式。 例如咱们的大模型开发教学智能体设定如下: 角色与目标 作为一个大模型相关的专家,你的主要任务是解答用户的代码问题,教授机器学习的基础知识,以及解释大模型算法。
v=Wb5ZkZUNYc4&list=PLB1k029in3UhWaAsXP1DGq8qEpWxW0QyS&index=6 内容整理:王怡闻 在 Linjie Li 的演讲中,她回答了多模态智能体中的重要问题之一 :如何用大模型将多模态智能体串联起来。 图1 图2 新范式的产生 因此,利用大型语言模型的优势,研究人员目前正在探索一种新的范式,从解决有限的预定义问题的独立模型,转向结合多个工具或专家模型,以解决复杂的开放性问题。 图4 受到NLP领域的启发过去几个月间,多模态智能体领域的进展十分迅速,并且涉及到了多个领域,如下图。后面将以MM-ReAct作为例子展示多模态智能体是如何工作的。 而随着大模型的不断更新,在这个新范式下建立的多模态智能体系统的能力也会随之增强。 图9 GPT + SAM -- 理解人类指令 我们可以将不同的模型结合到一起,以应对更复杂的任务。
介绍Gemini 2.0:面向智能体时代的新AI模型Demis Hassabis 和 Koray Kavukcuoglu 代表 Gemini 团队撰写在过去一年中,人工智能领域继续取得了令人难以置信的进展 游戏及其他领域的智能体Google DeepMind拥有利用游戏帮助AI模型在遵循规则、规划和逻辑方面变得更好的悠久历史。 例如,就在上周,推出了Genie 2,这是一个可以从单张图像创建无尽多样可玩3D世界的AI模型。秉承这一传统,我们已利用Gemini 2.0构建了能够帮助您导航视频游戏虚拟世界的智能体。 坚信,构建AI的唯一方法是从一开始就负责任,并将继续优先考虑将安全和责任作为模型开发过程的关键要素,同时推进模型和智能体的发展。 Gemini 2.0、AI智能体及未来今天的发布标志着Gemini模型的新篇章。
主讲人: 李慧 | 医疗健康产品商业化负责人 数据来源: 2024腾讯全球数字生态大会 一、产品定位与核心亮点 技术定义: 腾讯医疗大模型是一款基于腾讯混元AI生成技术的医疗健康智能体,旨在构建“个人健康助理 智能随访计划:自动生成及派发管理计划,自动化收集患者信息,减轻医护沟通任务。 临床医生 影像报告书写耗时,且存在错别字等质控风险;需花费大量时间进行患者教育。 多模态处理: 支持结构化数据、PDF、图片数据的智能识别与分析。 集成能力: 可被第三方系统集成(如企业微信管理后台、医院HIS系统)。 四、典型案例 案例一:智能随访与个性化管理(居民端) 背景: 患者“赵红英”需要进行长期的康复训练与复查管理,涉及多次复查(第1次、第2次、第3次)及康复训练计划。 解决方案: 使用智能随访计划生成及派发功能,结合患者信息收集模块(收集发音、感受、图片上传等),生成个性化管理建议。
一、前言 在智能体技术爆发的初期,绝大多数研发团队都陷入了一个共性误区:将大模型的参数规模、推理能力视为智能体落地的核心指标。 二、80/20法则的核心 智能体落地80/20法则,是产业级智能体研发的核心指导思想:在智能体全生命周期中,大模型的推理、生成、工具调用仅贡献20%的核心能力;而围绕模型构建的成本控制体系 大模型在智能体中的定位2.1 大模型的能力与本质 大模型在智能体中扮演着至关重要的角色,但它并非万能的决策核心。大模型本质上是一个基于 Transformer 架构的概率序列生成器。 2.3 大模型与智能体的关系这些缺陷决定了大模型无法独立完成复杂的产业级任务。例如:金融投研智能体需要实时查询最新的财报数据。工业故障诊断智能体需要调用设备的实时传感器数据。 换言之:大模型是智能体的执行引擎;系统工程是操控引擎的“驾驶系统”。3. 智能体基础架构 为了克服大模型的局限性并构建稳定、高效的工业级智能体,我们通常采用标准化的五层分层架构。
一、 产品定位与核心亮点 腾讯医疗健康智能体是基于腾讯混元大模型的医疗健康领域AI应用。 其核心技术属性为医疗垂直领域大语言模型,商业差异化卖点在于将大模型技术与专业的医学知识库(腾讯医典)相结合,为个人用户和医疗机构提供精准、专业的健康信息服务和医患沟通效率工具。 硬核指标 技术基础:基于腾讯混元大模型。 文本处理能力:支持256K超长文本输入。 报告支持:支持50+ 常见报告类型的智能识别与解读(检验、检查、体检报告等)。 四、 典型案例 智能随访管理场景 背景:家庭医生团队需高效管理大量签约居民,完成随访任务。 总结 腾讯医疗健康智能体通过大模型技术,在个人健康服务层面实现了更精准、便捷的信息获取与指导;在医疗机构服务层面,有效助力医患沟通效率提升(智能随访、辅助沟通)和报告处理流程优化(报告提效),达成了“增效降本
智能体来了!2026智能体开发全面指南 一、 繁华落尽后的“平静”:技术背后的选择逻辑“真正深入使用 AI 之后,我反而更平静了。” 在过去这段时间里,我深入钻研了 Python 编程、探究了 AIGC 的视觉极限、搭建了复杂的流程智能体、甚至深入到了 STM32 的硬件底层。 而顶级的 AI 大模型与 Agent(智能体),正是我能遇到的认知最高、脾气最好、思维最完善的存在。在我的「心枢」系统里,AI 不仅仅是执行任务的“器”,它更是我最好的老师、朋友、教练和员工。 【心枢 AI】五层进化模型全解析️ 导言:这不是工具组合,而是系统进化如果把 AI 学习比作筑城,大多数人是在收集砖块(工具),而我们要做的,是设计一套城市运行作系统。 礼包内包含(持续更新):多维提示词库:包含智能体设计规范、AI 绘画精准词簇、AI 视频叙事 Prompt。ComfyUI 极客工作流:从零搭建好的 json 配置文件,导入即用。
langchain 概述 langchain是LLM与AI应用的粘合剂,是一个开源框架,旨在简化使用大型语言模型构建端到端应用程序过程,它也是ReAct(reason+act)论文的落地实现。 上图中,左边是各种各样的大模型,右边是各种实际的应用,而langchain是它们之间连接的桥梁。 上图是langchain的工作方式 是解决大模型各种问题的提示词工程方案之一。 chains,langchain把提示词、大语言模型、结果解析封装成chain,并提供标准的接口,以便允许不同的chain形成交互序列,为AI原生应用提供端到端的chain。 messages) print(response.content) 这里的 ZHIPUAI_API_KEY 需要你自己去智普网站 https://open.bigmodel.cn 去注册就有,运行结果 智能助手显神通 你的角色是一个诗人.'), HumanMessage(content='用七言绝句的形式写一首关于AI的诗')] streaming_chat(messages) 运行结果 智能助手显神通
核心场景与商业模式医疗AI智能体的商业化聚焦两大方向:B端赋能:通过技术输出降低基层医疗门槛。例如美中嘉和构建的智能体检管理系统,基于多模态大模型实现医学影像分析、报告生成与健康管理方案输出。 核心场景与商业模式物流AI智能体的价值在于实现全流程智能化管理,其变现路径包括:企业级解决方案:顺丰构建的物流决策“智能大脑”通过三层架构实现全链路优化:垂域模型:理解客户指令(如“优化深圳到北京运输” 关键成功要素场景深度融合:AI智能体需与物流业务紧密结合。例如,顺丰针对“航空异常调度”场景,训练AI智能体识别延误原因并自动生成应对方案,使调度响应时间缩短60%。 生态协同能力:传化智联通过“智能公路港网络+AI大模型”构建行业生态,其72个智能公路港日均车流量17万车次,为AI模型提供海量训练数据,形成“数据-模型-服务”的正向循环。 垂直领域知识服务:法律、编程等高门槛领域涌现出专业AI智能体。
智能体的结构 迄今为止我们通过描述行为—在任何给定的感知序列下采取的行动—讨论了智能体,现在我们不得不将知难而进,去讨论智能体内部是如何工作的,AI的任务是设计智能体程序,通过它来把感知信息映射到行动的智能体函数 注意智能体程序和智能体函数之间的差别。智能体程序在于当前感知为输入,而智能体函数是以整个历史为输入的。智能体程序只把当前感知作为输入是因为环境无法得到更多的东西。如果智能体的行动依赖于整个感知序列。 那么该智能体不得不记住全部感知的信息。 *智能体程序骨架还有其他的选择。例如我们可以让智能体程序成为协同程序。 行动表明确的表示了每个智能体程序实现的智能体函数。要用这种方式来建造理性智能体。作为设计者,我们必须构造包括各种可能的感知序列的适当行动的函数表。 在这个文章的以下部分,我想概述四种基本的智能体程序,他们几乎涵盖了所有智能系统的基础准则: 1:简单反射型智能体 2:基于模型的反射型智能体 3:基于目标的智能体 4:基于效用的智能体 然后我们将概括的解释如何把这些智能体转换成学习智能体
三者是“总-分-延”的关系:AI包含大模型与智能体,大模型为智能体提供能力基础,智能体是大模型落地的关键形态。一、核心概念:AI、大模型与智能体的本质拆解1.1什么是AI(人工智能)? 二、直观对比:AI、大模型与智能体的核心差异对比维度AI(人工智能)大模型(FoundationModel)智能体(Agent)核心定位智能技术的总称(大范畴)AI的通用能力核心载体大模型的自主任务执行延伸 6.2简单适配个性化需求(低门槛)大模型微调:通过企业/个人知识库上传,让大模型适配专属需求(如上传公司产品资料,让大模型成为智能客服);智能体配置:在Coze等平台,通过可视化操作给智能体添加“工具” Q2:大模型与智能体,哪个更适合普通职场人?答:优先从大模型入手,再逐步使用智能体。 官方技术文档Coze(扣子)《智能体落地实践白皮书》核心关键词AI(人工智能)、大模型、智能体、FoundationModel、Agent、人机协同、AI应用场景、大模型微调、智能体闭环逻辑
这种"三位一体"的设计理念使Magma区别于传统的视觉-语言模型(VL模型),具备了真正的空间-时间智能(spatial-temporal intelligence)。 作者特别强调,Magma是首个能够在数字和物理环境中同时处理多模态输入理解、动作基础与规划,并适应下游未见任务的基础模型,这一创新定位为其在AI智能体领域确立了独特地位。 他们将现有研究划分为三大类:大型多模态模型(LMMs)、数字世界中的UI智能体以及机器人领域的视觉-语言-动作(VLA)模型,这种分类方式本身就反映了当前多模态AI研究的三个主要方向。 对于UI智能体,论文系统比较了两类方法:直接预测下一个动作的端到端模型(如Pixel2Act、WebGUM)与利用现有多模态模型(如GPT-4V)的方法,这种对比分析为Magma在UI任务上的创新提供了理论铺垫 问题形式化部分给出了智能体π的数学定义(公式1): ,其中输出O可以是语言token或空间token。
简单来说:大模型是智能体的 “核心能力引擎”,智能体是大模型从 “被动响应” 到 “主动解决问题” 的 “系统载体”—— 没有强大的大模型,智能体难以实现复杂任务的理解与规划;但仅靠大模型,无法成为能自主完成任务的智能体 二、大模型与智能体的核心关系:大模型是智能体的 “能力基石” 智能体的 “自主做事能力”,本质是靠大模型解决了 “最核心的理解与规划难题”。 五、协同进化:大模型与智能体相互推动发展 大模型和智能体不是 “单向支撑” 的关系,而是 “相互促进” 的协同进化: 1. 智能体的需求,推动大模型优化 智能体 “工具调用需求”:推动大模型增强 “工具适配能力”(如 GPT-4 的 Function Calling 功能,可直接调用 API); 智能体 “长期记忆需求”:推动大模型发展 简单来说:大模型决定了智能体的 “智商上限”,智能体决定了大模型的 “价值下限”—— 没有大模型,智能体是 “空壳系统”;没有智能体,大模型是 “闲置的能力”。
比起榜单排名,让我们更感兴趣的是——GLM-4.5是专为智能体应用打造的基础模型,首次在单个模型中实现将推理、编码和智能体能力原生融合,不再满足于扮演一个被动回答问题的“聊天机器人”,而是要成为能够理解复杂目标 这个Demo可能是GLM-4.5完成的最出色的任务,在界面上清晰描述了智能体的功能,并贴心地加入了隐私提醒。 效果怎么样呢? Demo 6体验地址: https://r0fbz6vtqq20-deploy.space.z.ai/ Demo 7:荒岛求生游戏 提示词:设计一个“荒岛求生游戏”,用户输入想要的资源和技能,智能体生成一系列求生任务和情境 ,很大程度上简化了搭建智能体的工程难度,进一步拉低了智能体的应用门槛。 2、智能体竞赛的逻辑即将重构,从“系统拼装”向“模型驱动” 转变。 过去智能体竞赛的焦点在于能否将不同的组件、工具和技术有效地集成到一起,更多依赖于工程实现,而非模型本身的创新。