一、端侧推理与 MoE 模型概述(一)端侧推理的概念与意义端侧推理指的是在终端设备上直接进行的模型推理计算,而非依赖云端服务器。 这种结构使得 MoE 模型在处理复杂的、多样化的数据时具有较高的灵活性和准确性。(三)MoE 模型在端侧推理中的挑战尽管 MoE 模型具有许多优势,但在端侧推理中也面临着一些挑战。 此外,如何在保证模型性能的前提下,尽可能地减少计算量和能量消耗,也是端侧 MoE 推理需要解决的难题。 (三)Mixtral 模型在端侧的优势Mixtral 模型在端侧推理中具有以下显著优势:高效率 :通过优化的 MoE 结构,能够在有限的计算资源下实现快速的推理计算,满足手机端实时交互的需求。 旨在提高模型在端侧的推理效率和性能。
什么是端侧大模型?端侧大模型是指在边缘设备(如个人电脑、移动设备等)上运行的大型语言模型。相较于云端部署,端侧模型具有以下优势:低延迟:本地运行无需网络请求,响应更快。 拉取模型:ollama pull qwen2.5:0.5b2.3 MiniCondaMiniConda 是一个轻量级的 Python 环境管理工具。下载地址:anaconda download3. 微调大模型微调是优化模型性能的关键步骤,通过在特定数据集上训练模型,使其更适合目标任务。 总结通过本指南,你已经学会了如何在本地设备上完成端侧大模型的微调、部署和应用开发。以下是关键步骤的回顾:准备环境:安装 Ollama、MiniConda 和 Qwen2.5-0.5B 模型。 本部署实践学习自datawhale开源社区,希望这篇指南也能帮助你快速上手端侧大模型的开发!如果有任何问题,欢迎在评论区交流。
Gemma 3 270M是 Google 推出的一款虽小但能力惊人的开放模型。它属于 Gemma 家族,本质上是将 Gemini 模型中使用的相同技术带入了轻量级、可定制的形式中。 import LoraConfig, get_peft_model from datasets import load_dataset model_name = "google/gemma-3- /gemma-emoji", num_train_epochs=3, per_device_train_batch_size=4, save_steps=100, 第三步:在浏览器中运行模型 有趣的部分来了——没有服务器,没有 API,无需等待。 使用 MediaPipe 的 GenAI Tasks 直接在浏览器中加载并运行模型。 因为 AI 的未来不仅仅是云端的大型模型——还有那些存在于你口袋里的小型模型。 Civil Learning
芯片端侧API采用CoreML和Metal这种垂直整合使苹果避免GPU短缺问题,同时通过ML任务反哺硬件迭代。 五大核心模型解析端侧3B参数语言模型 类似微软Phi-3-mini和谷歌Gemini Nano-2规模基于OpenELM改进,支持LoRA/DoRA适配器49K词表专为指令跟随优化云端MoE大模型(预估 130B-180B参数) 架构对标GPT-3.5,运行在私有云计算集群采用混合专家系统提升推理效率XCode端侧代码模型(2B-7B参数) 专精Swift代码补全(FIM任务)集成项目上下文感知能力 +张量并行+序列并行组合策略FSDP分片降低GPU内存峰值混合真实数据与合成数据训练网页爬取数据经过FineWeb级清洗基准测试争议端侧模型+适配器 vs Phi-3-mini基础模型的不对等比较macOS Sequoia量化模型与float16版本的性能误导性对比Mistral 7B未包含安全过滤的基准差异隐私优先设计哲学端侧处理优先原则私有云计算确保数据安全垂直整合实现硬件级优化
10月10日,Vivo推出蓝心端侧大模型 3B,其AI能力已覆盖60多个国家和地区,服务超5亿手机用户,大模型token输出量超过3万亿;随后,字节发布首款AI智能体耳机Ola Friend,与豆包深度集成 一、端侧大模型的兴起 端侧大模型指在终端设备(如智能手机、平板、PC、智能穿戴设备、自动驾驶及具身智能等)上运行的大型预训练模型。 从长远来看,端侧大模型还将与云端大模型结合将解锁更多应用场景。根据Scaling Law法则,云端模型在综合能力上始终领先于端侧模型一个数量级。 然而,不到两天时间,该项目被指大量剽窃了清华与面壁智能合作开发的多模态模型MiniCPM-Llama3-V 2.5。 除此之外,端侧大模型的发展也许还有一个更为决定性的因素,即生态。 比如,微软作为端侧模型的有力竞争者Phi-3/3.5的开发者,除了模型本身,还提供了一套名为Agents的工具(Copilot的自定义版)。
1.国内外纷纷推出自己的端侧大模型先来看看苹果推出的结合端侧大模型,网上说是与OpenAI合作,部署的是GPT-4o模型。 除了这两家之外,各大厂商也陆续发布自己的端侧大模型,每个厂商最大的参数量也就只有7B左右,而像小米、苹果这种发布的自家端侧大模型,仅有3B以下参数量。 端侧大模型模型参数苹果MM1/OpenELM450M/3B华为盘古|三星Gemini(非自研)1.8B/3.25B荣耀魔法7BOPPOAndesGPT7BvivoBlueLM7B小米MiLM1.3B/6.4B 2.端侧AI模型现状端侧AI模型是指将AI大模型运行于用户的终端设备上,如手机或计算机,而不是依赖云端服务器。 、能耗等方面,部署端侧模型在现阶段极具挑战性。
从2023年底高通骁龙峰会上第一批手机终端侧生成式 AI 演示至今,7B端侧模型在很长一段时间内被认为是端侧模型的入门门槛,且很难通过量化、微调等方式进一步压缩。 直到我们看到Apple Intelligence通过一系列巧妙操作,将3B模型成功压缩进苹果手机中,根据苹果官网的介绍,Apple Intelligence包括两个模型:一个是参数量为3B、可在手机上直接运行的纯端侧模型 它通过专项任务小模型的生成、适配器的动态加载与交换、以及端侧模型的整体量化压缩,配合特定的JSON结构化提示词工程,使得这个3B的小模型在特定的端侧任务上表现出色,足以媲美像Mistral-7B和Gemma 与Apple Intelligence的Apple On-Device 3B端侧模型和谷歌Gemma 2 2B模型主要用于手机、PC等轻量设备不同,国产小钢炮MiniCPM-V 2.6能够覆盖更多的终端类型与应用场景 微软作为端侧模型的有力竞争者Phi-3/3.5的开发者,除了模型本身,还提供了一套名为Agents的工具(Copilot的自定义版)。
然而,大模型的部署和应用面临着诸多挑战,如计算资源消耗大、数据传输延迟、隐私保护等问题。因此,端侧化成为大模型落地的重要方式。 首先,端侧化能够有效降低计算资源的消耗。 此外,端侧化还可以实现分布式计算,将计算任务分散到多个终端设备上,进一步提高计算效率。 其次,端侧化能够减少数据传输延迟。 而端侧化将大模型直接部署到终端设备上,避免了数据传输的过程,从而降低了数据传输延迟。 端侧化有助于保护用户隐私。 端侧化将大模型部署到终端设备上,用户数据在本地进行处理,无需传输到服务器端,从而有效保护了用户隐私。 此外,端侧化还可以促进大模型的个性化和定制化。 随着人工智能技术的不断进步和终端设备的性能提升,端侧化将发挥越来越重要的作用,为人工智能应用的落地和发展提供有力支持。 于是,在大模型端侧化的前提下,出现了三种新的业务模式。
https://github.com/ChengpengChen/RepGhost
新智元报道 编辑:LRST 【新智元导读】刚刚,一款专为消费级显卡设计的全新非自回归掩码图像建模的文本到图像生成模型——Meissonic发布,标志着图像生成即将进入「端侧时代」。 近年来,大语言模型在自然语言处理领域取得了巨大的突破,以LLaMA和Qwen等为代表的模型展现了强大的语言理解和生成能力。 此外,Meissonic通过引入掩码率作为动态采样条件,使模型自适应不同阶段的采样过程,进一步提升图像细节和整体质量。 3. 而这一切,都只需SDXL 1/3的推理时间和1/2的显存占用。值得注意的是,Meissonic可以在8GB显存下运行,让中低端显卡的用户也能受益。 广泛影响 最近,移动设备上的端侧文本到图像应用如谷歌Pixel 9的Pixel Studio和苹果iPhone 16的Image Playground相继推出,反映出提升用户体验和保护隐私的日益趋势。
在人工智能领域的浩瀚星河中,端侧 AI 正冉冉升起,成为备受瞩目的新星。随着技术的不断演进,人们对 AI 的需求已不再局限于云端服务器的强大算力,而是逐渐向移动设备等端侧延伸。 从智能手机中智能语音助手的实时响应,到智能摄像头对画面的精准识别,端侧 AI 正在悄无声息地改变着我们的生活方式。 然而,端侧 AI 的发展并非一帆风顺。 (二)困境:庞然大物的端侧之旅 尽管 MoE 大模型在性能上表现出色,但它的庞大体积和复杂结构,使得它在端侧的部署困难重重。 二、MoE 大模型压缩:瘦身之旅 (一)模型压缩的 “三板斧” 为了帮助 MoE 大模型摆脱困境,顺利进入端侧,模型压缩技术成为了关键的解决方案。 它在 CIFAR - 10 数据集上的分类准确率达到了教师模型的约 90%,而模型大小仅为教师模型的 1/3 左右。这个学生模型成功地在移动设备上实现了快速、准确的图像分类任务。
引言在移动设备和物联网(IoT)快速发展的今天,将机器学习模型直接部署到端侧设备(如智能手机、平板电脑、嵌入式设备等)已成为一种趋势。 然而,端侧设备的硬件资源(如计算能力、内存、电池寿命等)通常有限,这给模型部署带来了巨大挑战。传统的机器学习模型开发流程往往忽视了端侧设备的硬件特性,导致模型在实际部署时性能不佳或无法运行。 端侧模型优化挑战在端侧设备上部署深度学习模型面临诸多挑战:挑战类型具体问题影响计算资源限制有限的CPU/GPU计算能力模型推理速度慢内存限制有限的内存空间无法加载大型模型能耗限制电池寿命有限模型持续运行时间短热限制设备散热能力差长时间运行导致设备过热硬件感知 端侧AutoML部署流程环境配置在开始端侧AutoML部署之前,需要确保以下环境配置:硬件平台:目标端侧设备(如搭载骁龙处理器的智能手机、NVIDIA Jetson开发板等)开发环境:Python 3.8 ,需要将其部署到端侧设备上。
端侧大模型的解耦难题:是模型适配终端,还是终端适配模型? 继被吴恩达大力推广的 ChatDev 后,面壁在端侧模型上频出奇招,再次推出端侧多模态模型 MiniCPM-Llama3-V 2.5,直接干翻 GPT-4V 与多模态巨无霸 Gemini Pro,引起了海内外的广泛关注 1、端侧小模型 SOTA 诞生? 在语言模型推理方面,目前开源社区的报告结果中,Llama 3 语言模型在手机端侧的解码速度在 0.5 token/s 上下,相比之下,多模态大模型的端侧运行面临着更大的效率挑战,经过 CPU、编译优化、 总的来说,面壁最新取得的端侧多模态模型成果 MiniCPM-Llama3-V 2.5 是国产端侧之光,加速了国产大模型部署在端侧的节奏,也给端侧 AI 行业提供了多方位的参考。
大模型的未来发展在端侧 阳萌预测,大模型的未来发展可能会集中在长上下文和RAG两种主流观点上。他强调了大模型在端侧部署的重要性,以及对隐私和数据安全的关注。 有大模型或者有AI加持之后,未来的机器人和这些传统的机器人最底层的区别:传统的机器人都是用分治法加数理模型控制,新的AI人形机器人一定是端到端的算法来控制的,由一个大脑和一个小脑的两层模型共同支配。 他讨论了大模型在不同细分领域的应用,以及如何通过基座模型实现快速部署。未来大概率是一条流水线加两三个基座模型。 所谓一条流水线就是今天收集数据然后清洗数据、标记数据、训练模型、评估模型,包括做数据闭环,这是一条模型和数据流水线。 然后在流水线上产生2到3个基座模型,可以拿来解决各种不同的应用问题的模型,去做一些微调,跟具体的场景做结合。
~1B量级模型能力有限,性能提升空间不乐观 ●手机端侧模型有实际价值 -> ~10B模型塞到手机里 -> 估计3~4年 ●云+端混合将是长期主流 ○端侧模型 + 云上模型 的配合能力将是核心技术点之一 ○从用户价值看,端侧模型并不是必要路径 ○端侧模型存在合理性是1) 降低推理成本,2) 响应速度更快 3)更好保护隐私 2.产品:短期以小功能为先导,长期价值期待释放 ●当前AI 手机以功能探索为主, 3.能耗:发热&续航表现短期不会大幅优化,是手机端侧大模型的主要瓶颈 现状:目前没有大规模测试端侧模型推理的功耗;以游戏运行为benchmark,功率大约在4~7W,续航时间仅为3~4小时 崩坏:星穹铁道最高画质各机型实测结果 ●因此7-10B模型大概是可支持的极限,大量超越10B会比较困难 ●在这些极限假设下,续航时间可以满足8-10h要求,并缓解发热问题 3年内看不到纯端侧模型驱动的AI原生OS,复杂任务都需要云上实现 ●手机端侧模型在未来3~5年的天花板可能在~10B级别,这意味着仍然需要与云上大模型配合,才能实现通用Agent、复杂COT/TOT、超长文本等高级功能。 ●从用户的角度,对硬件的粘性远超软件。
端侧大模型上 Android:2026 年,手机里跑 LLM 已经不是科幻 两年前,"手机跑大模型"还是 PPT 里的概念。 当然,端侧也不是万能药——模型能力上限摆在那里,7B 以下的模型做复杂推理还是不如 GPT-4o。但对于很多场景:文本摘要、意图识别、本地问答、个性化回复建议……端侧模型已经够用了。 模型文件怎么分发? 这是端侧 LLM 最绕不开的工程问题。 模型更新机制复杂。端侧模型一旦部署,更新就比云端麻烦得多——需要重新下载几百 MB 到几 GB 的文件,还要处理版本兼容。模型版本管理是个绕不开的工程问题。 端侧大模型不是云端的替代品,是补充。 芯片算力还在快速提升,模型量化技术越来越成熟,Gemma、Phi-3 这类专为端侧设计的小模型效果越来越好。 如果你在做 C 端 App,这是一个值得提前布局的方向。
端侧模型正引领AI技术变革,将强大的智能直接部署在手机、IoT设备等终端,实现毫秒级响应、极致隐私保护与显著成本优化。探索这项重塑人机交互与行业应用的关键技术。 3. 成本优化,规模可控: 大幅削减云端成本:减少甚至免除昂贵的云端计算资源和数据传输费用。 降低带宽压力:仅在必要时与云端同步(端云协同),极大缓解网络拥堵。 内容创作:移动端图片/视频实时编辑与特效生成。技术基石:如何在资源受限的终端部署强大模型?端侧模型的核心挑战在于如何在有限的内存、算力和功耗下保持高性能。 端云协同 (Hybrid AI): 最佳平衡策略:将轻量级、高实时性、强隐私需求的任务放在端侧;复杂计算、大数据分析、模型更新等交给云端。两者无缝协作,提供最优整体体验。为何选择端侧AI? 端侧AI模型已不再是未来概念,而是当下提升产品竞争力、优化用户体验、保障数据安全的关键技术。无论您是开发者、产品经理还是企业决策者,现在是时候:评估应用场景:您的哪些业务痛点可通过端侧AI解决(延迟?
使用闪存加速边缘设备上大型语言模型(LLM)采用。 2. 在客户端设备上运行LLM时,需要解决内存墙问题。 3. 通过将部分LLM加载到GPU VRAM中,可以减少对系统内存的需求。 4. 端侧设备模型推理挑战 AI应用在端侧设备落地过程遇到的问题 SLM 模型虽已显著压缩,但与当前端侧设备的DRAM容量相比,仍明显超出。 图示 Apple(业内著名内存抠搜)和 Windows 两大OS在融合大模型过程面临挑战。 端侧toC市场对价格非常敏感,提高VRAM以支持客户端推理的方式被认为是不经济的。 这在LLM模型规模巨大、设备硬件资源有限的情况下显得尤为重要。 Note:模型稀疏性研究是推动其在有限资源端、边设备运行的关键! 存储硬件或软件厂商,能在模型稀疏性上尝试哪些创新? 研究更大的LLM模型,例如Llama2 7B模型,使用ReLU激活函数,并具有90%的稀疏性。 3. 应用窗口技术,仅为最近的tokens加载参数。
采访嘉宾|杨永杰,小米 小爱同学端侧 AI 负责人 编辑|罗燕珊 随着大模型能力持续提升,如何将其有效部署到端侧设备,成为产业界面临的重要工程挑战。 近日,InfoQ 对话 小米 / 小爱同学端侧 AI 负责人杨永杰,带你深入了解其团队如何从架构、系统和算法三层着手,推进大模型在端侧的工程化落地。 所以,从目前来看,大模型的发展还没有到一个“相对稳定”的阶段。不像传统模型发展成熟之后,各家公司会因为成本或场景要求,逐步考虑往端侧迁移。现在的端侧大模型更像是在做技术积累,是面向未来的准备。 杨永杰: 我们之所以要做共享基座架构,主要是因为端侧的资源确实有限,不仅是算力有限,存储空间和内存也很受限制。 比如一台 12GB 内存的手机,部署一个 4B 的大模型可能就需要接近 3GB 的内存。 表面上看可以放两个模型,但实际上手机或车载设备上还有很多其他业务,它们也要占用内存资源。真正能留给大模型使用的空间可能连 3GB 都不到。 在这样的限制下,我们就无法为每个业务分别部署一个独立模型。
“ 端侧模型正成为一个备受关注的技术前沿。面壁智能发布的MiniCPM 3.0,以其4B参数量在性能上逼近GPT-3.5,更在端侧部署上实现了技术突破。 通过量化技术,该模型的内存需求被优化至仅 2GB,就很适合在端侧(移动端)环境中部署。 面壁智能CTO曾国洋表示,从技术路线上来说,端侧模型与云端大模型有一部分是共通的,主要体现在模型的知识密度和能力上,但是面壁智能需要在一些技术上采取更适配端侧模型的路径,才有可能实现以小博大的目的。 在真正落地端侧设备时,端侧模型的优势会得到显现。 由于端侧设备对运算资源有极大限制,端侧模型会从模型的训练技巧、数据配比、数据精度等方面做大量工作,而云端大模型整体更注重效果和成本的平衡,大都采取MoE(Mixture of Experts)架构等技术以追求性价比