本节重点 AI 服务化是指将原本只能本地运行的 AI 能力转化为可远程调用的接口服务,使更多人能够便捷地访问 AI 能力。 通过本节学习,你将掌握如何将 AI 智能体转变为可供他人调用的服务 具体内容包括: AI 应用接口开发 AI 智能体接口开发 在开始之前,先给大家提个醒,Spring AI 版本更新飞快,有些代码的写法随时可能失效 一、AI 应用接口开发 我们平时开发的大多数接口都是同步接口,也就是等后端处理完再返回。 点击接口旁边的绿豆就能自动生成测试代码: 二、AI 智能体接口开发 由于智能体执行过程通常包含多个步骤,执行时间较长,使用同步方法会导致用户体验不佳。 因此,我们采用 SSE 技术将智能体的推理过程实时分步输出给用户。
1 月 20 日,清华大学自然语言处理实验室、中国人民大学、面壁智能与 OpenBMB 社区联合开源了 8B 端侧写作智能体 AgentCPM-Report。 它做了一件过去被认为“几乎不可能”的事:在完全本地部署的前提下,把 DeepResearch 级别的写作能力,压进了一个 8B 模型。 这基本坐实了一件事:端侧模型,已经开始正面进入“高阶认知任务”的战场。五、从 Demo 到生产:部署门槛被拉到极低从工程视角看,这个项目并不“学院派”。 官方还展示了一个很“残忍”的案例: 基于《三体》原文知识库,自动完成“面壁计划”的深度研究报告,从线索挖掘到万字成文,全流程自动完成。这已经不是简单的写作辅助,而是完整的研究工作流自动化。 而是它释放了一个清晰信号:DeepResearch 不再是云端特权小模型 + 智能体架构,开始挑战高阶认知任务本地化、可控、可审计的 AI 研究系统,正在成为现实选项接下来,问题可能不再是“能不能做到”
1 月 20 日,由清华大学自然语言处理实验室、中国人民大学、面壁智能与 OpenBMB 开源社区联合研发的 8B 端侧写作智能体 AgentCPM-Report 正式开源。 为此,AgentCPM-Report 以端侧模型为核心,来实现本地化部署与 SOTA 性能的双重突破,力求无需昂贵算力集群,也无需上传任何信息,即可在本地构建专家级调研助手。 据悉,该智能体的核心亮点集中在两大维度。 第一,极致效能与“以小博大”的突破:通过平均 40 轮深度检索与近 100 轮思维链推演,AgentCPM-Report 以仅 8B 的参数规模,实现了对复杂信息的全方位挖掘与重组,能够产出逻辑严密、洞察深刻的万字长文 官方展示的实战场景中,该智能体可基于《三体》原文知识库,完成从线索挖掘、大纲规划到万字长文撰写的全流程,精准生成"面壁计划"深度调查报告。
该产品号称只需500美元,便可以基于Llama3微调出一个强大的多模态模型,效果堪比GPT-4V等一线模型,而参数规模仅为8B。 在7~8B的参数规模下,该模型的功能优化堪称“诚意十足”,一举将单图、多图、视频理解三项核心能力成功“压缩”至端侧,性能表现与GPT-4V看齐。 比如,当前,智能汽车的终端算力并不逊色于旗舰手机和PC,8B参数的端侧模型在智能汽车上,由于电池和算力资源更为充足,可以获得出更为优异的性能与用户体验。 这些项目均以视觉理解为基础,构建多智能体协作的架构,从而实现更强的任务拆解和跨应用操作能力,这是未来端侧AI的关键组成部分。端侧AI的终极混合形态专业化端侧与全知全能云端协同或是最优解。 例如,8月份谷歌发布的轻量级小模型Gemma 2 2B,就是从6月份发布的Gemma 27B和9B Gemma 2模型中蒸馏而来的;微软开发的AI小语言模型(SLMs)Phi-3系列有多个版本,包括mini
HPC和AI应用迎来大时代 零售业只是行业变革的冰山一角。 IDC发布的《数据时代2025》报告显示:未来一家数字化工厂一天可能产生超过1PB的数据;一辆联网的自动驾驶汽车每运行8小时将产生4TB的数据。 人们期待HPC和AI的供给侧,也能来一场轰轰烈烈的变革。 算力发生供给侧变革 身处HPC和AI的风口浪尖,很多设备商和服务商已经感受到了算力供给的痛点,积极进行相关的战略布局和产品研发。 要发挥AI和深度学习的全部潜力,就需要能适应计算密集型工作负载的系统来支持AI开发的各个阶段。 HPE Apollo 系统就具备这样的能力,适合端到端IVA的AI模型开发和训练,可以支持各种HPC和AI应用。
太长不看版: 1.技术:端侧模型短期能力有限,端云结合是长期状态 ●手机大模型的瓶颈排序: ○电池容量和发热 ○芯片计算速度 ○现有架构下,8G+内存是最低要求 ○内存读写速度可能需要进一步技术突破 ● ○从用户价值看,端侧模型并不是必要路径 ○端侧模型存在合理性是1) 降低推理成本,2) 响应速度更快 3)更好保护隐私 2.产品:短期以小功能为先导,长期价值期待释放 ●当前AI 手机以功能探索为主, 3年内看不到纯端侧模型驱动的AI原生OS,复杂任务都需要云上实现 5.端侧多模态大模型:端侧的价值主要在多模态理解,而不在多模态生成 ●多模态生成不在端侧 价值有限:端侧多模态能完成的生成场景(例如修图 ii.也可以用线上账号的方式实现;且训练/精调只能在线上 2.3 商业价值 g.流量/收数 i.AI原生OS是手机厂商与APP生态建设的重点 ii.AI OS的功能理论上可以通过云上模型解决,但端侧+ ,端侧大模型不是孤立的技术,而是跟AI芯片(GPU/TPU等)、操作系统共同形成一个完整的技术体系。
langchain 概述 langchain是LLM与AI应用的粘合剂,是一个开源框架,旨在简化使用大型语言模型构建端到端应用程序过程,它也是ReAct(reason+act)论文的落地实现。 chains,langchain把提示词、大语言模型、结果解析封装成chain,并提供标准的接口,以便允许不同的chain形成交互序列,为AI原生应用提供端到端的chain。 content='Hi.'), SystemMessage(content='你的角色是一个诗人.'), HumanMessage(content='用七言绝句的形式写一首关于AI content='Hi.'), SystemMessage(content='你的角色是一个诗人.'), HumanMessage(content='用七言绝句的形式写一首关于AI
与算力紧缺相比,数据管道读取带宽、通信效率是限制AI训练更关键因素。 端侧设备模型推理挑战 AI应用在端侧设备落地过程遇到的问题 SLM 模型虽已显著压缩,但与当前端侧设备的DRAM容量相比,仍明显超出。 端侧toC市场对价格非常敏感,提高VRAM以支持客户端推理的方式被认为是不经济的。 下图示意,RTX 2000 一张显卡的价格接近左图PC的一半。 • 注意力层(Attention Layer)占 8%。 • MLP层占 72%,并且该层是稀疏的。 Note:从工作原理来看,压缩模型体积的重点工作应关注嵌入层和MLP层。 例子:在Gemma 2B参数模型中,保持28%的部分(其中20%为嵌入层(Embedding Layer),8%为注意力层(Attention Layer))驻留在GPU上,而72%的MLP层按需加载(
本节重点 学习 AI 智能体的概念和构建方法,掌握如何实现具有自主决策能力的 AI 系统。 具体内容包括: AI 智能体概念与特点 智能体实现关键技术 使用 AI 智能体的多种方式 OpenManus 实现原理 自主实现 Manus 智能体 智能体工作流编排 A2A 协议 一、什么是智能体? 24 年流行的很多可联网搜索内容、调用知识库和工具的 AI 应用,都属于这类智能体。 三、使用 AI 智能体 有 3 种方式可以使用 AI 智能体,之前的教程中其实我们已经有接触过,这里再快速复习一遍。 比如可以在阿里云百炼、Dify 等平台上创建智能体 2、软件中使用 AI 开发工具 Cursor、tare 就集成了 AI 智能体,可以帮我们生成完整的项目代码、或者解释项目代码。
而回看国内手机厂商品牌,很多手机厂商也开始发布自家搭载了端侧大模型的AI手机。比如最近,荣耀也推出了自己的搭建了端侧大模型的手机。 荣耀Magic 7作为国内首款安卓AI智能体手机,相比于苹果有不一样的地方。比如可以利用AI帮助你进行“AI人脸反诈骗”检测,可以有效应对AI诈骗。 2.端侧AI模型现状端侧AI模型是指将AI大模型运行于用户的终端设备上,如手机或计算机,而不是依赖云端服务器。 在当前INT4/INT8的量化上,需要保证模型还能够有一定的推理能力。从近期的一些文章来看,目前的端侧模型效果惊人,已经能够复刻ChatGPT的效果。 上面论文提出,生成式AI的Transformer大语言模型通过量化至8位(INT8)或4位(INT4)权重,可大幅提升效率。
接AI智能体(四) MetaGPT 环境装配 metagpt下载地址:https://github.com/geekan/MetaGPT conda create -n metagpt python= 3.5-turbo api_key: "******" 测试: 在终端命令行中进入Meta-GPT-main目录中执行 metagpt "Write a cli snake game" 单动作智能体 多动作智能体 import asyncio import sys import subprocess from metagpt.llm import LLM from metagpt.actions import /usr/bin/env python # -*- coding: utf-8 -*- """ @Time : 2023/5/11 14:43 @Author : alexanderwu @File /usr/bin/env python # -*- coding: utf-8 -*- """ @Time : 2023/11/20 @Author : mashenquan @File
model_name': 'glm-4', 'finish_reason': 'stop'}, id='run-b982480c-39d9-4445-8888-62a10339ef86-0')]} 状态持久化 许多AI
NotionAI智能体Notion3.0的AI智能体通过自动化流程实现复杂任务闭环。其核心能力包括智能搜索、数据分析、决策制定和执行操作。 智能体通过自然语言交互理解用户需求,自动调用数据库和外部工具完成任务。用户只需输入目标,如“分析Q3销售数据并制定优化方案”,系统即可生成可视化报告和执行建议。 零一万物万智2.5平台解析万智2.5平台采用多智能体协作架构,每个角色对应特定职能:市场智能体:自动生成营销方案并执行投放HR智能体:处理招聘全流程,包括简历筛选和面试安排财务智能体:实时监控预算并生成分析报表平台通过智能体间的通信协议实现协作 例如启动新项目时,系统自动组建包含产品、设计、开发智能体的虚拟团队,各角色通过API交换数据并同步进度。 监控系统需记录智能体的决策路径和执行效果,便于持续优化。
2025年,三星在其One UI 8操作系统中首次集成端侧语音钓鱼检测功能,通过本地运行的轻量化AI模型实时分析通话音频特征与语义内容,在不上传用户数据的前提下实现对可疑通话的即时预警。 研究表明,端侧AI驱动的实时语音风险识别是提升移动通信安全的有效路径,但需在模型精度、计算开销与用户隐私之间取得平衡。 关键词:语音钓鱼;端侧AI;One UI 8;实时语音分析;隐私保护;反诈骗1 引言随着深度伪造(Deepfake)与语音克隆技术的普及,电话诈骗已从传统的“广撒网”式话术升级为高度定制化、情感操控型的精准攻击 尤其缺乏对商用端侧AI语音安全模块的技术解构与效能评估。 7 结语三星One UI 8引入的语音钓鱼检测功能,标志着移动操作系统安全防护从被动拦截向主动感知的重要转变。其端侧AI架构在保障隐私的同时实现了较高的实时检测效能,为行业提供了可行的技术路径。
接AI智能体(三) memory工具使用 以往,我们都是直接跟大模型进行交互,没有办法系统的实现记忆。 在上图中,用户在向大模型问问题时会首先读取记忆体,查看以往是否回答过相同的问题或者相关的文档可以参考。 如果有就会返回并添加到提示词模版中,再通过大模型的处理得到答案,得到答案之后再将答案反写回记忆体,这是一个循环的过程。 history.add_ai_message('你好,我是AI助手,有什么可以帮你的吗?') history.add_ai_message('你好,我是AI助手,有什么可以帮你的吗?')
接AI智能体(五) Dify Dify是一个开源的Agent开发平台,使用Dify有两种方式,一种是使用Dify的在线平台。https://cloud.dify.ai。 一种是进行私有化部署。 DEPLOY_ENV: ${DEPLOY_ENV:-PRODUCTION} CHECK_UPDATE_URL: ${CHECK_UPDATE_URL:-https://updates.dify.ai -TRUE} ORACLE_PWD: ${ORACLE_PWD:-Dify123456} ORACLE_CHARACTERSET: ${ORACLE_CHARACTERSET:-AL32UTF8} ORACLE_PWD: ${ORACLE_PWD:-Dify123456} ORACLE_CHARACTERSET: ${ORACLE_CHARACTERSET:-AL32UTF8} Object] 代码为 import json def main(arg1: str) -> dict: if arg1.startswith('```'): arg1 = arg1[8:
AI智能体创作思路 AI智能体的核心在于模拟人类思维和行为模式,通过算法和数据处理实现自主决策。创作思路通常包括目标定义、数据收集、模型训练、评估优化等环节。 目标定义阶段明确智能体的功能边界,比如聊天机器人、游戏NPC或自动化工具。数据收集阶段获取相关领域的语料、图像或其他输入数据。模型训练阶段选择合适的算法架构,如深度学习、强化学习或规则引擎。 智能体的核心功能包括" input_ids = tokenizer.encode(input_text, return_tensors="pt") output = model.generate( 部署优化策略 模型量化将FP32参数转为INT8,减少75%内存占用。知识蒸馏训练小模型继承大模型能力。ONNX转换实现跨平台推理加速。缓存机制存储高频查询结果,降低计算开销。 测试显示新版本准确率下降超过5%时 联邦学习实施方案: 采用安全聚合协议(Secure Aggregation)保护参与方数据 支持横向联邦(相同特征空间)和纵向联邦(不同特征空间)两种模式 典型应用案例:医疗AI
近年来以数据为中心的新型计算架构 ,例如存算一体芯片技术 ,受到人们的广泛关注 ,尤其在端侧智能场景。 但是 ,基于端侧设备在资源 、时延、成本、功耗等诸多因素的考虑 ,业界对存算一体芯片提出了苛刻的要求。因此, 存算一体介质与计算范式尤为重要。 存算一体的基本概念最早可以追溯到 20 世纪 70 年代,斯坦福研究所的Kautz等[7-8]最早于1969年就 提出了存算一体计算机的概念。 端侧智能应用特征与存算一体芯片需求 随着 AIoT 的快速发展 ,用户对时延 、带宽 、功耗、隐私/安全性等特殊应用需求,如图3(a)所示,驱 动边缘端侧智能应用场景的爆发。 第一种方案是利用辅助外围电路,跟上述SRAM 存算一体类似 ,如图 8(a)所示为一种典 型的可重构存算一体实现方案[35] ,其可以在存储应 用与存算一体应用之间进行切换。
前言 接口传参方式之一:通过发送请求体(Request Body)来传递请求数据 在 FastAPI,提倡使用 Pydantic 模型来定义请求体 这篇文章会详细讲不使用 Pydantic 和 使用 Pydantic 发送请求体的栗子 注意 请求体并不是只有 POST 请求有,只不过 POST 更常见 在 PUT、DELETE、PATCH 请求中都可以使用请求体 其实,在 GET 请求中也可以用请求体,不过仅适用于非常极端的情况下 ,而且 Swagger API 并不会显示 GET 请求的请求体 不使用 Pydantic的栗子 from fastapi import FastAPI import uvicorn app = FastAPI ,字段数量也可以任意个 错误传参的请求结果 选了 text 之后,因为不是 JSON 字符串,FastAPI 无法正确解析请求体为 dict,所以会报类型错误的提示 查看请求头 类型是 text 用 app.put("/items/{item_id}") async def create_item( # 路径参数 item_id: int, # 请求体,
由于文章篇幅有限,文末还给大家整理了一个更详细的智能体构建技术文档,自行领取,关于配图说明:本文所有配图均来自技术原理示意图,非商业用途。 引言:为什么记忆管理是AI系统的生死线当前大模型应用的致命瓶颈在于上下文窗口限制。 当对话轮数超过GPT-4 Turbo的128K上限,或本地部署模型仅支持4K上下文时,系统面临两难抉择:遗忘早期关键信息导致逻辑断层(如用户说“按上次方案处理”)突破长度限制带来的指数级计算成本增长本文将深入解析8种主流记忆策略 long_term_memory.save(key="生日", value=extract_date(user_input)) 最佳实践:短期层:Redis缓存(毫秒级响应)长期层:Pinecone向量库8. 由于文章篇幅有限,关于如何构建智能体,以及AI Agent相关技术,我整理了一个文档,感兴趣的粉丝,自行免费领取:《想要读懂AI Agent(智能体),看这里就够了》最后我们再次整理一下以上8种记忆策略