WHO(谁负责) Skill 涉及三个角色,职责清晰分离: 角色 负责什么 核心能力 应用层(Agent框架) 技能注册、权限控制、元数据注入、实际执行 确定性、安全性、管理性 LLM 理解元数据、匹配用户意图 、选择技能、按指令执行 语义理解、推理决策 开发者/领域专家 编写 SKILL.md、开发脚本、定义业务规则 领域知识、工程实现 决策分工: • 应用层负责:"有什么技能可用"(提供菜单) • LLM 负责:"该用哪个技能"(根据菜单点菜) • 开发者负责:"技能该怎么做"(写菜谱) ⏰ WHEN(何时使用) 适用场景: 场景类型 示例 是否需要用 Skill 单次、简单任务 查天气、算算术 ❌ Function 上下文占用 50,000+ token 10,000 token 5倍节省 响应时间 3-5秒 1-2秒 2-3倍 成本 $0.15/次 $0.03/次 5倍节省 错误率 20% 2% 10倍提升 开发效率 的 5W1H 一句话版 WHAT = 给 LLM 看的 SOP(标准作业程序) WHY = 让 AI 从"会调用工具"变成"懂业务地工作" WHO = 应用层管注册 + LLM做决策 + 开发者写内容
Discovery (扫描):Agent 启动时,只读取 SKILL.md 里的 name 和 description。内存占用极小,只为了“知道有什么”。 2. Agent Skills最大的改变就在于渐进式披露,其本质依然是行业中大家都在不断优化的提示词工程和上下文工程,其对提示词做了标准化拆分,通过在本地创建相关文件并控制文件的读取,只在Agent需要时自主且自动加载内容 反观Skills,Agent 最初只加载多个 Skills 的元数据(每个 Skill 占用几百 token),当 Agent 认为需要使用某个具体的 Skill,就会读取这个 Skill.md 说明( 几千 token) Skill 里还可以无限嵌套下去,告诉 Agent,想要深入了解某个具体问题,还可以继续读取哪份文件。 官方文档: https://platform.claude.com/docs/en/agents-and-tools/agent-skills/overview
本文主要记录下如何创建一个简单的java Agent,并配置运行。 1.创建Agent类 package com.java4all.grouth.agent; import java.lang.instrument.Instrumentation; /** * @ description: java Agent * @author: IT云清 */ public class MyAgent { public static void premain(String ,args:"+agentArgs); } } 2.MANIFEST.MF 配置文件 这里在src/main/resources/META-INF/下创建一个MANIFEST.MF文件,指定Agent : true 3.打包配置 在pom.xml中配置打包信息 <build> <finalName>my-agent</finalName> <plugins>
本文深度解析8大AI Agent开发框架的核心技术与工业级应用,帮助开发者精准匹配业务场景。 SDK:轻量化智能体快速开发核心价值:5行代码构建生产级Agent,降低开发门槛4.1 八大优势解析from openai_agents import Agent, tool @tool def ("financial_tools") agent.run("对比TSLA和AAPL的市盈率")行业影响:工具开发者数量3个月增长800%五、Google Agent Development Kit (ADK):云原生Agent工厂定位:无缝集成Google云服务的企业级Agent开发平台5.1 核心特性Vertex AI管道:可视化编排Dialogflow+BigQuery+Cloud FunctionsFirebase pm.run("开发短视频推荐算法") architect.receive(pm.output) # 接收PRD文档 engineer.receive(architect.output) #
要开发一个能深入理解项目的智能体(Agent),需要考虑多方面的项目理解和推理能力。 filepath: Path) -> Dict[str, Any]: """深度分析单个文件""" with open(filepath, 'r', encoding='utf-8' 个文件包含依赖引入 """ return report四、使用示例 # 使用智能体分析项目 if __name__ == "__main__": # 初始化智能体 agent = ProjectUnderstandingAgent("/path/to/your/project") # 生成完整分析报告 report = agent.generate_report () print(report) # 获取详细的项目理解 project_understanding = agent.understand_project()
Java Agent 概况 简介和功能 Java Agent是一种特殊的Java程序,允许开发者在 Java 应用程序运行时对其进行动态修改和监控的机制。 那么,我们如何开发一个 Java Agent 呢,下面我们来仔细说说。 开发 Java Agent 需要遵循一下规范,下面是几个必备的部分: 实现 premain 方法 premain 方法是 Java Agent 的入口点,类似于主程序的 main 方法。 实用案例 性能监控 Java Agent技术在性能监控领域的应用非常广泛,它可以帮助开发者实时监控应用程序的运行状态,识别性能瓶颈。 漏洞扫描:Agent可以集成漏洞扫描工具,对应用程序进行深度的安全检查,及时发现并修复安全漏洞。 性能影响 开发Java Agent时,性能影响是一个需要特别关注的问题。
多模态Agent开发实战入门一、什么是多模态Agent?多模态Agent是指能够同时处理和理解多种类型数据(文本、图像、音频、视频等)的智能体,并能基于这些理解执行任务、做出决策。 )跨模态推理(图文关联、音画同步)工具调用(API、数据库、物理设备)自主规划与执行二、技术栈选型主流框架框架特点适用场景LangChain生态丰富,支持多模态模型快速原型、RAG应用AutoGen多Agent 协作,对话驱动复杂任务分解CrewAI角色化Agent,结构化流程业务自动化LangGraph图控制流,状态管理需要精确控制的流程多模态模型选择闭源API:GPT-4V、GPT-4o、Claude 3、 协作冲突引入仲裁Agent;明确角色分工(如CrewAI的Process)四、项目实践路线第1周:掌握基础API调用(GPT-4V或Qwen-VL)→ 完成图文问答第2-3周:集成LangChain → 构建可调用工具(搜索、计算、数据库)的Agent第4-5周:添加记忆模块 → 实现多轮对话上下文保持第6-8周:多模态RAG → 图片库检索 + 文档问答进阶方向:视频流理解、语音交互、多Agent协同
Spring AI Alibaba 项目从架构上包含如下三层: Agent Framework 是一个以 ReactAgent 设计理念为核心的 Agent 开发框架,使开发者能够构建具备自动上下文工程和人机交互等核心能力的 Agent。 Graph graph 是一个低级别的工作流和多代理协调框架,能够帮助开发者实现复杂的应用程序编排,它具备丰富的预置节点和简化的图状态定义,Graph 是 Agent Framework 的底层运行时基座
Agent 编排层:Agent Manager、LangGraph 编排、Agent Factory、FC(Function Calling) 3. 领域能力层:MCP Server、领域 Sub Agent、高阶 Sub Agent 5. 知识与记忆:知识来源、记忆系统(长期/短期) 6. 再接 MCP Agent(复杂交互) 路径:`Top Agent -> 包装工具 -> Sub Agent(LangGraph) -> MCP Server -> 后端服务` 适合:多轮工具调用、 复杂业务规则、需要 Sub Agent 自主推理。 API(兼容协议) 检索与数据 ChromaDB `0.4+` OpenAI Embedding `text-embedding-3` Redis `7.x`(会话/Token 缓存) MySQL `8.
对于 LLM 开发者,MCP 是一个变革性的协议。 它消除了为每个数据源或工具进行定制集成的需要,减少了开发时间和维护成本。 从本质上来说,MCP是一种技术协议,一种智能体Agent开发过程中共同约定的一种规范。 在统一的规范下,协作效率就能大幅提高,最终提升智能体Agent的开发效率。 传统的Function calling技术要求围绕不同的外部工具API单独创建一个外部函数,类似一把锁单独配一把钥匙,而一个智能体又往往涉及到多个外部工具设计,因此开发工作量很大。 VS Function calling Function Calling是AI大模型模型调用函数的机制, MCP是一个标准协议,使大模型与API无缝交互, 而AI Agent是一个自主运行的智能系统,利用
PRD(产品需求文档)已死 在 Claude 时代之前,PRD 是软件开发的核心。EPD 的流程通常是这样的: 1. 有人(通常是产品经理)有了一个想法 2. 产品经理写一份 PRD 3. 工程师将原型图转化为代码 想法 → PRD → 原型图 → 代码 这并非硬性规定(在初创公司这些步骤是融合的,最好的构建者能同时做多项工作),但这是教科书式的开发方式。 现在他们只需要与Agent沟通。这意味着他们仅凭自己就能产生比以往任何时候都大得多的影响力。 2. 编程Agent是刚需 随着编程Agent让实施变得廉价,使用它们成为了一种要求。 • 设计师: 采用编程Agent可以在代码中迭代,而不仅仅是在 Figma 中。 • 工程师: 采用编程Agent可以将时间从实施转移到系统思考。 8.
在 Agent 系统中,内存指代 Agent 保留并利用过去交互、观察和学习经验中信息的能力。这种能力使 Agent 能够做出明智决策、维护对话上下文并随时间持续改进。 开发人员通常通过 SessionService 间接与 Session 对象交互。 ## 示例:使用 InMemorySessionService ## 这适用于不需要跨应用程序重启的数据持久性的本地开发和测试。 ## 示例:使用 DatabaseSessionService ## 这适用于需要持久存储的生产或开发。 ## 您需要配置数据库 URL(例如,用于 SQLite、PostgreSQL 等)。 这由 MemoryService 促进实现 ## 示例:使用 InMemoryMemoryService ## 这适用于不需要跨应用程序重启数据持久性的本地开发和测试 ## 应用停止时内存内容会丢失 from
对于Agent的价值,一直抱有怀疑态度,甚至认为未来会不会像大前端一样 别看现在火爆得不行,其实再走到下一个节点,就如前端一样,在裁员批次里面是第一梯队 因为它只是个连接器,一端是大脑LLM,另一端是之前承载业务的平台或专业软件 像一个垂直类专业软件,需要花费很多的资源去培训客户,但如果有了agnet,通过自然语言直接对话,都不需要去学习软件的使用,就能产出相应的结果 有点类似后端程序,可能都不清楚产品前端界面是什么样,开发一个个接口逻辑就行了 在看到arthas也出品了agent,这感觉具象化了,对于arthas 我是实实在在的使用客户。 但有了agent 那就更方便了,什么都不需要,把碰到的问题直接使用自然语言抛给agent,它能帮你分析,帮你执行命令。 相当方便 本来打算学习一下arthas agent,结果agent也没对外开源,只是阿里内部使用。
尤其是做Agent的时候,Prompt写不好,不只是回答丑一点,而是接口挂、JSON解析挂、教师端页面挂、学生画像误判,最后后端还要背锅。我之前做高校学情分析Agent的时候,就被这个东西反复折磨。 在Agent开发中,提示词经常不是一次性文本,而是由后端模板、用户输入、检索内容、工具返回结果拼接而成。 项目不大,但数据源很碎:学生画像、课程访问记录、作业记录、测验分数、教师备注、RAG检索出来的课程资料,全都要塞给Agent。 比如你要写一份Agent开发文档,很多人会直接这样问:展开代码语言:TXTAI代码解释帮我写一份高校学情分析Agent的开发文档,越详细越好。模型确实能写。 里面故意保留了一点我平时开发会出现的东西,比如忘删的console.log,还有注释掉的旧代码。
ReAct(Reasoning + Acting)是一种将推理和行动相结合的 Agent 范式。在这个范式中,Agent 会: 1. 迭代:基于观察结果继续思考和行动,直到完成任务 这个循环使 Agent 能够: • 将复杂问题分解为多个步骤 • 动态调整策略基于中间结果 • 处理需要多次工具调用的任务 • 在不确定的环境中做出决策 Graph 由节点(steps)和边(connections)组成,定义了 Agent 如何处理信息。 Agent 在这个 Graph 中移动,执行如下节点: • Model Node (模型节点):调用 LLM 进行推理和决策 • Tool Node (工具节点):执行工具调用 • Hook Nodes (钩子节点):在关键位置插入自定义逻辑 ReAct Agent 的工作方式其实挺像人类解决问题的过程。
L4 Agent AI完成绝⼤部分⼯作,人类负责设定⽬标、提供资源和监督结果。AI完成任务拆分,工具选择,进度控制,实现目标后自助结束工作。 2 ERNIE Bot Agent开发框架ERNIE Bot Agent 基于文心模型的 Function Calling(下⾯简称FC) 能力实现了多工具编排和自动调度功能,并且允许工具、插件、知识库等不同组件的混合编排 /ERNIE-SDK/erniebot # 然后安装ERNIE Bot Agent !pip install . /ERNIE-SDK/erniebot-agent # 安装核⼼模块 #pip install './erniebot-agent/. 识别图片中文字的工具# 远程调⽤⼀个图⽚识别⼯具 ocr_tool = RemoteToolkit.from_aistudio("highacc-ocr").get_tools()[0] 2.4 创建agent
:工具层:提供基础能力(检索、工具调用、记忆)编排层:负责Agent流程控制与协调(本文重点)应用层:面向特定场景的高层抽象二、八大框架核心架构深度解析2.1 LangGraph:状态机驱动的精密仪器开发团队 端到端产品开发2.5 DeerFlow 2.0:企业级低代码平台开发团队:阿里巴巴 GitHub Stars:12.8K+ 核心理念:可视化编排 > 代码编写架构特点拖拽式界面:可视化构建Agent = task.execute() 适用场景:纯OpenAI生态、追求最佳GPT体验、快速原型开发2.8 Claude Agent SDK 适用场景:长文档分析、复杂推理任务、需要MCP工具集成的场景三、性能基准测试:真实数据对比3.1 测试环境硬件:AWS c5.2xlarge (8 随着项目演进,灵活切换或混合使用多个框架,才是企业级AI开发的成功之道!"
两年深耕,无数次架构迭代与实战验证,我们终于摸清了Agent开发的核心脉络。 作为AI Agent领域的入局者,接触该类产品开发不知不觉已有两年多之久。期间前前后后调研了不少内容,从开发经验总结的角度写下这一篇文章总结记录的同时,希望能给需要的同学们带来一定帮助。 这一时期最重要的里程碑是微软AutoGen框架的发布,它为多Agent协作提供了一个标准化、易用的开发平台。 研究者们开始将通用的多Agent框架与具体的应用场景相结合,如金融交易、软件开发、内容创作等,形成了领域特化的Agent协作模式。 核心点8. 动态提示词 问题:静态提示词无法适应环境状态变化(如任务阶段切换、权限变更),导致无效动作。
这类问题并非开发技术能力不足,而是传统定制开发模式存在三大结构性硬伤,也是企业数字化持续高成本、低效率的核心根源:1.API无治理,形成蜘蛛网式集成乱象传统定制开发采用“业务需求驱动、临时对接开发”的模式 ≤7天>30天依托预置连接器,配置化快速对接定制开发占比≤20%>60%低代码+AI替代通用定制开发需求维护成本占比≤30%>70%智能监控运维,实现故障自愈系统评级参考标准:90分以上:数字化架构健康 本文以云捷配低代码+OpenClawAIAgent的工程化落地模式为案例,客观拆解低代码与AIAgent双向协同、互补赋能的技术价值,为行业同类方案落地提供参考:1.开发层协同:AI降低开发门槛,重构低代码开发模式传统低代码平台依赖人工拖拽 第二阶段:场景试点,验证价值(4-8周)优先选择数据报表自动生成、订单全流程流转、设备运维告警等轻量化、高复用场景开展试点,落地低代码+AIAgent协同方案,通过数据对比验证降本、提效、减人工的实际价值 低代码+AIAgent的技术融合模式,从底层重构了企业应用开发、系统集成、业务运维的逻辑,有效解决了传统定制开发成本高、周期长、迭代慢、集成乱的行业痛点。
目录执行摘要框架概述详细对比分析优劣势分析发展前景选型建议执行摘要本报告对四个主流Agent开发框架进行了全面对比分析:Eino(字节跳动)、AgentScope(阿里巴巴)、Youtu-Agent(腾讯 Youtu-Agent - 腾讯优图基本信息:开发公司:腾讯优图实验室主要语言:Python开源时间:2025年9月定位:零闭源依赖智能体框架核心特点:零闭源模型依赖YAML配置简化操作成本可控的开源模型支持基于 开发易用性AgentScope: ⭐⭐⭐⭐⭐ 低代码+可视化界面Youtu-Agent: ⭐⭐⭐⭐ YAML配置简化Spring AI Alibaba: ⭐⭐⭐⭐ Spring注解驱动Eino: ⭐⭐⭐ Python技术栈团队Youtu-Agent (腾讯)优势:零闭源依赖:完全基于开源模型,成本可控配置简单:YAML配置降低开发门槛成本优势:避免商用模型授权费用腾讯生态:与腾讯云服务深度集成劣势:功能相对基础 (成本控制)AgentScope(快速开发)Spring AI Alibaba(Java团队)研究机构/高校:AgentScope(研究友好)Eino(性能研究)Youtu-Agent(开源研究)高并发场景