什么是端侧大模型?端侧大模型是指在边缘设备(如个人电脑、移动设备等)上运行的大型语言模型。相较于云端部署,端侧模型具有以下优势:低延迟:本地运行无需网络请求,响应更快。 4. 微调大模型微调是优化模型性能的关键步骤,通过在特定数据集上训练模型,使其更适合目标任务。 部署大模型部署是将微调后的模型集成到 Ollama 并运行的过程。 总结通过本指南,你已经学会了如何在本地设备上完成端侧大模型的微调、部署和应用开发。以下是关键步骤的回顾:准备环境:安装 Ollama、MiniConda 和 Qwen2.5-0.5B 模型。 本部署实践学习自datawhale开源社区,希望这篇指南也能帮助你快速上手端侧大模型的开发!如果有任何问题,欢迎在评论区交流。
腾讯研究院大模型研究小分队出品 自苹果推出AI手机以来,端侧大模型的产品发布进入加速期。 一、端侧大模型的兴起 端侧大模型指在终端设备(如智能手机、平板、PC、智能穿戴设备、自动驾驶及具身智能等)上运行的大型预训练模型。 其中,智能手机和电脑是当前端侧大模型应用最有前景的领域,端侧大模型可以实现图像处理、自然语言理解和生成、人脸识别、语音助手和翻译等功能,在电脑侧,端侧大模型还可以分析用户自身的各类多媒体文件,生成用户自己的个性化小模型 从长远来看,端侧大模型还将与云端大模型结合将解锁更多应用场景。根据Scaling Law法则,云端模型在综合能力上始终领先于端侧模型一个数量级。 面对复杂任务,苹果则采取“端侧大模型+云端大模型”的技术方案。
1.国内外纷纷推出自己的端侧大模型先来看看苹果推出的结合端侧大模型,网上说是与OpenAI合作,部署的是GPT-4o模型。 到时候可能接入的是国内百度的文心一言,体验不了最强模型GPT-4的效果。而回看国内手机厂商品牌,很多手机厂商也开始发布自家搭载了端侧大模型的AI手机。 除了这两家之外,各大厂商也陆续发布自己的端侧大模型,每个厂商最大的参数量也就只有7B左右,而像小米、苹果这种发布的自家端侧大模型,仅有3B以下参数量。 2.端侧AI模型现状端侧AI模型是指将AI大模型运行于用户的终端设备上,如手机或计算机,而不是依赖云端服务器。 4.总结从目前的端侧AI模型现状来看,国内外的很多厂商都聚焦于如何把大模型配置到手机上,并使得手机能够更加的智能。从苹果发布会来看,这只是AI在手机上的一个初步体现。
在人工智能领域的浩瀚星河中,端侧 AI 正冉冉升起,成为备受瞩目的新星。随着技术的不断演进,人们对 AI 的需求已不再局限于云端服务器的强大算力,而是逐渐向移动设备等端侧延伸。 从智能手机中智能语音助手的实时响应,到智能摄像头对画面的精准识别,端侧 AI 正在悄无声息地改变着我们的生活方式。 然而,端侧 AI 的发展并非一帆风顺。 (二)困境:庞然大物的端侧之旅 尽管 MoE 大模型在性能上表现出色,但它的庞大体积和复杂结构,使得它在端侧的部署困难重重。 二、MoE 大模型压缩:瘦身之旅 (一)模型压缩的 “三板斧” 为了帮助 MoE 大模型摆脱困境,顺利进入端侧,模型压缩技术成为了关键的解决方案。 通过这种方式,模型的计算复杂度降低了约 25%,并且识别准确率仅下降了约 1%。 同时,我们对模型进行分块加载。将模型分割成 4 个部分,每个部分存储在不同的内存块中。
端侧大模型的解耦难题:是模型适配终端,还是终端适配模型? 继被吴恩达大力推广的 ChatDev 后,面壁在端侧模型上频出奇招,再次推出端侧多模态模型 MiniCPM-Llama3-V 2.5,直接干翻 GPT-4V 与多模态巨无霸 Gemini Pro,引起了海内外的广泛关注 的 GPT-4V; OCR 能力 SOTA:能够精准识别长图、难图与长文本,9 倍像素更清晰,同时具备识别与推理能力; 手机端突破:首次整合 NPU 和 CPU 加速框架, 对手机端多模态大模型进行系系统级加速 在语言模型推理方面,目前开源社区的报告结果中,Llama 3 语言模型在手机端侧的解码速度在 0.5 token/s 上下,相比之下,多模态大模型的端侧运行面临着更大的效率挑战,经过 CPU、编译优化、 总的来说,面壁最新取得的端侧多模态模型成果 MiniCPM-Llama3-V 2.5 是国产端侧之光,加速了国产大模型部署在端侧的节奏,也给端侧 AI 行业提供了多方位的参考。
一、端侧推理与 MoE 模型概述(一)端侧推理的概念与意义端侧推理指的是在终端设备上直接进行的模型推理计算,而非依赖云端服务器。 这种结构使得 MoE 模型在处理复杂的、多样化的数据时具有较高的灵活性和准确性。(三)MoE 模型在端侧推理中的挑战尽管 MoE 模型具有许多优势,但在端侧推理中也面临着一些挑战。 (三)Mixtral 模型在端侧的优势Mixtral 模型在端侧推理中具有以下显著优势:高效率 :通过优化的 MoE 结构,能够在有限的计算资源下实现快速的推理计算,满足手机端实时交互的需求。 通过让小模型学习大模型的输出或中间表示,来提高小模型的性能。 旨在提高模型在端侧的推理效率和性能。
以下是访谈的内容要点: 大模型与私域知识的结合 阳萌首先指出,大模型虽然在通用知识方面表现出色,但在特定领域的知识整合上存在挑战。他认为,将私域知识有效整合进大模型是实现其大规模应用的关键。 大模型的未来发展在端侧 阳萌预测,大模型的未来发展可能会集中在长上下文和RAG两种主流观点上。他强调了大模型在端侧部署的重要性,以及对隐私和数据安全的关注。 有大模型或者有AI加持之后,未来的机器人和这些传统的机器人最底层的区别:传统的机器人都是用分治法加数理模型控制,新的AI人形机器人一定是端到端的算法来控制的,由一个大脑和一个小脑的两层模型共同支配。 相信在很多个细分品类把大模型这些先进技术应用起来,可以做出真正的极具创新的开拓性的产品。 大模型在产品中的应用 阳萌描述了安克创新如何将大模型应用于音频领域,并分享了未来的计划。 他讨论了大模型在不同细分领域的应用,以及如何通过基座模型实现快速部署。未来大概率是一条流水线加两三个基座模型。
端侧大模型上 Android:2026 年,手机里跑 LLM 已经不是科幻 两年前,"手机跑大模型"还是 PPT 里的概念。 当然,端侧也不是万能药——模型能力上限摆在那里,7B 以下的模型做复杂推理还是不如 GPT-4o。但对于很多场景:文本摘要、意图识别、本地问答、个性化回复建议……端侧模型已经够用了。 模型文件怎么分发? 这是端侧 LLM 最绕不开的工程问题。 模型更新机制复杂。端侧模型一旦部署,更新就比云端麻烦得多——需要重新下载几百 MB 到几 GB 的文件,还要处理版本兼容。模型版本管理是个绕不开的工程问题。 端侧大模型不是云端的替代品,是补充。 芯片算力还在快速提升,模型量化技术越来越成熟,Gemma、Phi-3 这类专为端侧设计的小模型效果越来越好。 如果你在做 C 端 App,这是一个值得提前布局的方向。
“ 端侧模型正成为一个备受关注的技术前沿。面壁智能发布的MiniCPM 3.0,以其4B参数量在性能上逼近GPT-3.5,更在端侧部署上实现了技术突破。 相较于云端大模型,兼具小尺寸和强性能的端侧模型天然更适合智能硬件产品,因为后者有更高的计算效率、实时反馈、安全隐私等方面的要求。 面壁智能CTO曾国洋表示,从技术路线上来说,端侧模型与云端大模型有一部分是共通的,主要体现在模型的知识密度和能力上,但是面壁智能需要在一些技术上采取更适配端侧模型的路径,才有可能实现以小博大的目的。 在真正落地端侧设备时,端侧模型的优势会得到显现。 由于端侧设备对运算资源有极大限制,端侧模型会从模型的训练技巧、数据配比、数据精度等方面做大量工作,而云端大模型整体更注重效果和成本的平衡,大都采取MoE(Mixture of Experts)架构等技术以追求性价比
采访嘉宾|杨永杰,小米 小爱同学端侧 AI 负责人 编辑|罗燕珊 随着大模型能力持续提升,如何将其有效部署到端侧设备,成为产业界面临的重要工程挑战。 但即使做了低比特量化,手机等端侧设备上可商业化部署的模型可能也难以超过 4B 参数量,且低比特量化会导致模型效果损失。在这个量化精度下,大模型的整体效果相比云端仍有较大差距。 所以,从目前来看,大模型的发展还没有到一个“相对稳定”的阶段。不像传统模型发展成熟之后,各家公司会因为成本或场景要求,逐步考虑往端侧迁移。现在的端侧大模型更像是在做技术积累,是面向未来的准备。 杨永杰: 是的,我们团队自研了一个用于大模型推理的框架。之所以选择自研,主要是因为目前针对端侧的大模型推理框架非常少,开源的方案更是寥寥无几,即使有,往往也是针对端侧 CPU 或 GPU 的。 杨永杰: 我们之所以要做共享基座架构,主要是因为端侧的资源确实有限,不仅是算力有限,存储空间和内存也很受限制。 比如一台 12GB 内存的手机,部署一个 4B 的大模型可能就需要接近 3GB 的内存。
而且二者还是不在一个“重量级”的那种: 绿人:由GPT-4操纵 红人:由一个端侧小模型操纵 那么这位又小又彪悍的选手到底什么来头? 不卖关子,它正是由商汤科技最新发布的日日新端侧大模型——SenseChat Lite(商量轻量版)。 但除了文本生成之外,徐立同样在现场还展示了商汤端侧模型的多模态能力。 然而,纵观整场活动,端侧大模型也还仅是此次发布会的一隅。 在“大基座”方面,商汤更是把自家的日日新大模型来了个大版本的升级——SenseNova 5.0。 商汤的速度不只限于像端侧大模型的运行效果之快,更宏观地来看,是自身在迭代优化进程上的速度。
芯片端侧API采用CoreML和Metal这种垂直整合使苹果避免GPU短缺问题,同时通过ML任务反哺硬件迭代。 五大核心模型解析端侧3B参数语言模型 类似微软Phi-3-mini和谷歌Gemini Nano-2规模基于OpenELM改进,支持LoRA/DoRA适配器49K词表专为指令跟随优化云端MoE大模型(预估 130B-180B参数) 架构对标GPT-3.5,运行在私有云计算集群采用混合专家系统提升推理效率XCode端侧代码模型(2B-7B参数) 专精Swift代码补全(FIM任务)集成项目上下文感知能力 0.6ms/首token延迟令牌推测技术预期提速2-3倍训练技术揭秘数据并行+张量并行+序列并行组合策略FSDP分片降低GPU内存峰值混合真实数据与合成数据训练网页爬取数据经过FineWeb级清洗基准测试争议端侧模型 +适配器 vs Phi-3-mini基础模型的不对等比较macOS Sequoia量化模型与float16版本的性能误导性对比Mistral 7B未包含安全过滤的基准差异隐私优先设计哲学端侧处理优先原则私有云计算确保数据安全垂直整合实现硬件级优化
尽管如此,终端生态多方的信心并没有受到影响,大家正在使尽浑身解数共同促进端侧AI的实现。大模型“压缩”极限不断下探7B的预期端侧门槛正在被进一步打破。 然而,在接下来的不到两个月时间里,谷歌DeepMind更新发布了Gemma 2 2B,再次将通用端侧大模型的极限推到了2.6B这个新的“下限”,从上级模型中蒸馏而来的轻量级小模型Gemma 2 2B在大模型竞技场 在7~8B的参数规模下,该模型的功能优化堪称“诚意十足”,一举将单图、多图、视频理解三项核心能力成功“压缩”至端侧,性能表现与GPT-4V看齐。 虽然许多小模型在特定能力上已经具备了媲美十倍甚至百倍参数大模型的实力,GPT-4经常被用作这些端侧小模型的比较对象,并且“偶有失手”。 云端大模型始终比端侧大模型先进一个以上的数量级。
然而,大模型的部署和应用面临着诸多挑战,如计算资源消耗大、数据传输延迟、隐私保护等问题。因此,端侧化成为大模型落地的重要方式。 首先,端侧化能够有效降低计算资源的消耗。 而端侧化将大模型直接部署到终端设备上,避免了数据传输的过程,从而降低了数据传输延迟。 端侧化有助于保护用户隐私。 端侧化将大模型部署到终端设备上,用户数据在本地进行处理,无需传输到服务器端,从而有效保护了用户隐私。 此外,端侧化还可以促进大模型的个性化和定制化。 例如,结合终端设备的传感器和摄像头,大模型可以实现更精准的环境感知和目标检测;结合终端设备的语音识别和自然语言处理能力,大模型可以实现更智能的人机交互和智能助手。 因此,端侧化是大模型落地的重要方式。 随着人工智能技术的不断进步和终端设备的性能提升,端侧化将发挥越来越重要的作用,为人工智能应用的落地和发展提供有力支持。 于是,在大模型端侧化的前提下,出现了三种新的业务模式。
ChatGPT 和 GPT4 等大模型的出现让人们看到了通用人工智能的曙光。 ,InternGPT 等通过多模型拼接的方式实现了区域级理解,模型间的传输媒介是文本,这显然是一种暂时性的方案,以 feature 作为传输媒介的端到端的多模态模型会有更高的上限 VisionLLM 等端到端的网络只实现了区域级感知的功能 ,还不能支持区域级逻辑推断 于是,一种支持自然语言与在线画框的交互方式,端到端的,区域级感知和推理的多模态对话系统成为 GPT-4 开源项目的下一个发展方向。 Language Instruction and Spatial Instruction 端到端多模态模型的基本框架为: 以 Large Language Model(LLM)作为通用接口,将 vision 因此,面向区域级理解的多模态大模型需要在 region-text pairs 数据上建立 LLM 和 vision encoder 的区域级对齐。
https://github.com/ChengpengChen/RepGhost
新智元报道 编辑:LRST 【新智元导读】刚刚,一款专为消费级显卡设计的全新非自回归掩码图像建模的文本到图像生成模型——Meissonic发布,标志着图像生成即将进入「端侧时代」。 近年来,大语言模型在自然语言处理领域取得了巨大的突破,以LLaMA和Qwen等为代表的模型展现了强大的语言理解和生成能力。 自回归文本到图像模型(如LlamaGen)通过预测下一个token生成图像,但由于生成的图像token数量庞大,自回归模型在效率和分辨率上也面临瓶颈,难以应用到实际场景。 为提升图像生成效果,Meissonic在训练中加入了图像分辨率、裁剪坐标及人类偏好评分等微观条件,显著增强了模型在高分辨率生成时的稳定性。 4. 广泛影响 最近,移动设备上的端侧文本到图像应用如谷歌Pixel 9的Pixel Studio和苹果iPhone 16的Image Playground相继推出,反映出提升用户体验和保护隐私的日益趋势。
引言在移动设备和物联网(IoT)快速发展的今天,将机器学习模型直接部署到端侧设备(如智能手机、平板电脑、嵌入式设备等)已成为一种趋势。 然而,端侧设备的硬件资源(如计算能力、内存、电池寿命等)通常有限,这给模型部署带来了巨大挑战。传统的机器学习模型开发流程往往忽视了端侧设备的硬件特性,导致模型在实际部署时性能不佳或无法运行。 端侧模型优化挑战在端侧设备上部署深度学习模型面临诸多挑战:挑战类型具体问题影响计算资源限制有限的CPU/GPU计算能力模型推理速度慢内存限制有限的内存空间无法加载大型模型能耗限制电池寿命有限模型持续运行时间短热限制设备散热能力差长时间运行导致设备过热硬件感知 端侧AutoML部署流程环境配置在开始端侧AutoML部署之前,需要确保以下环境配置:硬件平台:目标端侧设备(如搭载骁龙处理器的智能手机、NVIDIA Jetson开发板等)开发环境:Python 3.8 ,需要将其部署到端侧设备上。
一份新报告提出,支持终端侧AI大模型功能的智能手机将需要比以前更大容量的內存。因此,内置端侧AI大模型功能的Android智能手机其內存容量至少需要20GB 将成为趋势。 4GB的内存,如果还要相对流畅的运行其他常规APP任务并保活,还需要6GB的内存,即总的手机内存容量需求将达到23GB。 所以,要想在智能手机端运行130亿参数的AI大模型将会面临着内存限制的问题。 即便采用先进的内存压缩技术,要流程的运行130亿参数的AI大模型,智能手机也需要至少16GB的内存容量,如要要运行更大规模的330亿参数的AI大模型,内存容量就需要进一步提升到20GB以上。 最强RISC-V服务器芯片发布:4nm,192核,性能超越AMD Epyc 9754! 220万分!330亿参数大模型!天玑9300遥遥领先背后:“全大核”架构揭秘!
作为一个语言模型集成框架,LangChain 的用例与一般语言模型的用例有很大的重叠。 重叠范围包括文档分析和总结摘要, 代码分析和聊天机器人。 Langchain架构 LangChain工具 组件:大模型包装器、聊天模型包装器、数据增强工具和接口链: 提供了标准接口,和数据平台和实际应用工具紧密集成 LangChain六大模块 模块 核心作用 Agent作为高级模块,可调用其他所有模块功能 大模型接入 接入示例 云服务和私有化大模型优劣对比 维度 开发成本 算力成本 运维成本 数据安全 云厂商大模型 较低,开箱即用 算力资源充足,大模型性能好 &吞吐量较高 较低,提供云平台监控 安全性低 私有化大模型 较高,自建大模型网关、服务鉴权、可用性等 算力硬件投入成本高,大模型性能较差低&吞吐量较低 较高,需要专业运维团队介入 安全性高,保密性强 小结: - 研发&测试环境:为了方便部署和测试,使用云服务 - 大客户生产环境:安全审核严格,大多数采用自建大模型的方式 总结 LangChain 是什么?