首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏AI学习笔记

    MoE 推理:Mixtral 模型手机部署

    一、推理与 MoE 模型概述(一)推理的概念与意义推理指的是在终端设备上直接进行的模型推理计算,而非依赖云端服务器。 这种结构使得 MoE 模型在处理复杂的、多样化的数据时具有较高的灵活性和准确性。(三)MoE 模型推理中的挑战尽管 MoE 模型具有许多优势,但在推理中也面临着一些挑战。 (三)Mixtral 模型的优势Mixtral 模型推理中具有以下显著优势:高效率 :通过优化的 MoE 结构,能够在有限的计算资源下实现快速的推理计算,满足手机实时交互的需求。 (一)模型优化技术量化技术 :将模型的权重和激活值从浮点数表示转换为低比特整数表示(如 8 位整数),从而减少模型的存储空间和计算量。 旨在提高模型的推理效率和性能。

    68810编辑于 2025-07-14
  • 来自专栏.NET 全栈开发专栏

    模型实战指南:微调、部署、应用开发

    什么是模型模型是指在边缘设备(如个人电脑、移动设备等)上运行的大型语言模型。相较于云端部署,模型具有以下优势:低延迟:本地运行无需网络请求,响应更快。 微调大模型微调是优化模型性能的关键步骤,通过在特定数据集上训练模型,使其更适合目标任务。 部署大模型部署是将微调后的模型集成到 Ollama 并运行的过程。 总结通过本指南,你已经学会了如何在本地设备上完成模型的微调、部署和应用开发。以下是关键步骤的回顾:准备环境:安装 Ollama、MiniConda 和 Qwen2.5-0.5B 模型。 本部署实践学习自datawhale开源社区,希望这篇指南也能帮助你快速上手模型的开发!如果有任何问题,欢迎在评论区交流。

    1.6K21编辑于 2025-08-05
  • 来自专栏网络安全技术点滴分享

    深度解析苹果与云端基础模型技术架构

    芯片API采用CoreML和Metal这种垂直整合使苹果避免GPU短缺问题,同时通过ML任务反哺硬件迭代。 五大核心模型解析3B参数语言模型 类似微软Phi-3-mini和谷歌Gemini Nano-2规模基于OpenELM改进,支持LoRA/DoRA适配器49K词表专为指令跟随优化云端MoE大模型(预估 130B-180B参数) 架构对标GPT-3.5,运行在私有云计算集群采用混合专家系统提升推理效率XCode代码模型(2B-7B参数) 专精Swift代码补全(FIM任务)集成项目上下文感知能力 0.6ms/首token延迟令牌推测技术预期提速2-3倍训练技术揭秘数据并行+张量并行+序列并行组合策略FSDP分片降低GPU内存峰值混合真实数据与合成数据训练网页爬取数据经过FineWeb级清洗基准测试争议模型 +适配器 vs Phi-3-mini基础模型的不对等比较macOS Sequoia量化模型与float16版本的性能误导性对比Mistral 7B未包含安全过滤的基准差异隐私优先设计哲学处理优先原则私有云计算确保数据安全垂直整合实现硬件级优化

    37700编辑于 2025-07-26
  • 模型浪潮奔涌而至:态势、影响与建议

    一、模型的兴起 模型指在终端设备(如智能手机、平板、PC、智能穿戴设备、自动驾驶及具身智能等)上运行的大型预训练模型。 三是量化技术,指将神经网络中的权重与激活值从高精度浮点数转换为低比特宽度整数(如INT8、FP8或INT4等),以降低存储需求和计算成本,同时尽量维持模型性能。 英伟达的Chat with RTX,用户只需8GB的RTX 30或40系列显卡,即可在本地PC上运行大模型,并打造自己的知识库,让模型的应用更为便捷。 从长远来看,模型还将与云端大模型结合将解锁更多应用场景。根据Scaling Law法则,云端模型在综合能力上始终领先于模型一个数量级。 该产品号称只需500美元,便可以基于Llama3微调出一个强大的多模态模型,效果堪比GPT-4V等一线模型,而参数规模仅为8B。

    1.1K20编辑于 2024-10-31
  • 来自专栏算法一只狗

    苹果AI手机发布后,AI大模型前景如何?

    1.国内外纷纷推出自己的模型先来看看苹果推出的结合模型,网上说是与OpenAI合作,部署的是GPT-4o模型。 除了这两家之外,各大厂商也陆续发布自己的模型,每个厂商最大的参数量也就只有7B左右,而像小米、苹果这种发布的自家模型,仅有3B以下参数量。 2.AI模型现状AI模型是指将AI大模型运行于用户的终端设备上,如手机或计算机,而不是依赖云端服务器。 在当前INT4/INT8的量化上,需要保证模型还能够有一定的推理能力。从近期的一些文章来看,目前的模型效果惊人,已经能够复刻ChatGPT的效果。 、能耗等方面,部署模型在现阶段极具挑战性。

    1.2K20编辑于 2024-09-26
  • AI的终极形态

    从2023年底高通骁龙峰会上第一批手机终端生成式 AI 演示至今,7B模型在很长一段时间内被认为是模型的入门门槛,且很难通过量化、微调等方式进一步压缩。 该产品号称只需500美元,便可以基于Llama3微调出一个强大的多模态模型,效果堪比GPT-4V等一线模型,而参数规模仅为8B。 在7~8B的参数规模下,该模型的功能优化堪称“诚意十足”,一举将单图、多图、视频理解三项核心能力成功“压缩”至,性能表现与GPT-4V看齐。 比如,当前,智能汽车的终端算力并不逊色于旗舰手机和PC,8B参数的模型在智能汽车上,由于电池和算力资源更为充足,可以获得出更为优异的性能与用户体验。 云端大模型始终比模型先进一个以上的数量级。

    80710编辑于 2024-08-28
  • 来自专栏数据猿

    模型带来的三个新思考:剪枝、蒸馏、量化

    然而,大模型的部署和应用面临着诸多挑战,如计算资源消耗大、数据传输延迟、隐私保护等问题。因此,化成为大模型落地的重要方式。 首先,化能够有效降低计算资源的消耗。 此外,化还可以实现分布式计算,将计算任务分散到多个终端设备上,进一步提高计算效率。 其次,化能够减少数据传输延迟。 而化将大模型直接部署到终端设备上,避免了数据传输的过程,从而降低了数据传输延迟。 化有助于保护用户隐私。 化将大模型部署到终端设备上,用户数据在本地进行处理,无需传输到服务器,从而有效保护了用户隐私。 此外,化还可以促进大模型的个性化和定制化。 随着人工智能技术的不断进步和终端设备的性能提升,化将发挥越来越重要的作用,为人工智能应用的落地和发展提供有力支持。 于是,在大模型化的前提下,出现了三种新的业务模式。

    84710编辑于 2024-06-19
  • 来自专栏AIWalker

    高效骨干RepGhost | 重参数赋能GhostNet,达成超高效骨干

    https://github.com/ChengpengChen/RepGhost

    52810编辑于 2024-02-17
  • 来自专栏新智元

    扩散模型失宠?非自回归图像生成基础模型Meissonic登场,超越SDXL!

    新智元报道 编辑:LRST 【新智元导读】刚刚,一款专为消费级显卡设计的全新非自回归掩码图像建模的文本到图像生成模型——Meissonic发布,标志着图像生成即将进入「时代」。 值得注意的是,Meissonic可以在8GB显存下运行,让中低端显卡的用户也能受益。 阶段二:实现文本与图像对齐 第二阶段的重点在于提升模型对长文本描述的理解能力。团队筛选了审美分数高于8的图像,构建了120万对优化后的合成图文对及600万对内部高质量图文对。 在使用8个A100 GPU进行训练的情况下,Meissonic的训练时间仅需19天,显著低于Würstchen、SD-2.1等模型的训练时间。 广泛影响 最近,移动设备上的文本到图像应用如谷歌Pixel 9的Pixel Studio和苹果iPhone 16的Image Playground相继推出,反映出提升用户体验和保护隐私的日益趋势。

    25810编辑于 2025-02-14
  • 来自专栏AI学习笔记

    AI 新战场:MoE 大模型压缩与移动芯片适配

    在人工智能领域的浩瀚星河中, AI 正冉冉升起,成为备受瞩目的新星。随着技术的不断演进,人们对 AI 的需求已不再局限于云端服务器的强大算力,而是逐渐向移动设备等延伸。 从智能手机中智能语音助手的实时响应,到智能摄像头对画面的精准识别, AI 正在悄无声息地改变着我们的生活方式。 然而, AI 的发展并非一帆风顺。 (二)困境:庞然大物的之旅 尽管 MoE 大模型在性能上表现出色,但它的庞大体积和复杂结构,使得它在的部署困难重重。 二、MoE 大模型压缩:瘦身之旅 (一)模型压缩的 “三板斧” 为了帮助 MoE 大模型摆脱困境,顺利进入模型压缩技术成为了关键的解决方案。 使用 PyTorch 提供的量化工具,将模型中的浮点数权重量化为 8 位整数。

    86900编辑于 2025-07-04
  • 来自专栏AI学习笔记

    AutoML:硬件感知NAS 2.0

    引言在移动设备和物联网(IoT)快速发展的今天,将机器学习模型直接部署到设备(如智能手机、平板电脑、嵌入式设备等)已成为一种趋势。 然而,设备的硬件资源(如计算能力、内存、电池寿命等)通常有限,这给模型部署带来了巨大挑战。传统的机器学习模型开发流程往往忽视了设备的硬件特性,导致模型在实际部署时性能不佳或无法运行。 模型优化挑战在设备上部署深度学习模型面临诸多挑战:挑战类型具体问题影响计算资源限制有限的CPU/GPU计算能力模型推理速度慢内存限制有限的内存空间无法加载大型模型能耗限制电池寿命有限模型持续运行时间短热限制设备散热能力差长时间运行导致设备过热硬件感知 AutoML部署流程环境配置在开始AutoML部署之前,需要确保以下环境配置:硬件平台:目标设备(如搭载骁龙处理器的智能手机、NVIDIA Jetson开发板等)开发环境:Python 3.8 ,需要将其部署到设备上。

    48010编辑于 2025-07-22
  • 来自专栏AI科技评论

    国产模型超越 GPT-4V,「多模态」能力飞升

    模型的解耦难题:是模型适配终端,还是终端适配模型? 1、模型 SOTA 诞生? -V2.5: 侧部署 如前所述,由于终端硬件产品的物理限制,部署到的 AI 模型既要满足硬件的要求,并在成本可控的情况下实现同等参数性能最佳、同等性能参数最小。 在语言模型推理方面,目前开源社区的报告结果中,Llama 3 语言模型在手机的解码速度在 0.5 token/s 上下,相比之下,多模态大模型运行面临着更大的效率挑战,经过 CPU、编译优化、 总的来说,面壁最新取得的多模态模型成果 MiniCPM-Llama3-V 2.5 是国产之光,加速了国产大模型部署在的节奏,也给 AI 行业提供了多方位的参考。

    1.4K10编辑于 2024-05-22
  • 来自专栏机器之心

    20+移动硬件,Int8极速推理,推理引擎Paddle Lite 2.0 正式发布

    机器之心发布 机器之心编辑部 今年 8 月,飞桨(PaddlePaddle)对外发布面向终端和边缘设备的推理引擎 Paddle Lite Beta 版。 ,方便广大开发者将应用部署到任何设备之上。 图 1 .典型 AI 应用部署场景 Paddle Lite 是飞桨产品栈中用于高性能轻量化 AI 应用部署的推理引擎,核心用途是将训练出的模型在不同硬件平台场景下快速部署,根据输入数据,执行预测推理得到计算结果 除了上述主流模型以外,ARM CPU FP32 新增如下 3 个模型支持: -transformer -facebox -blazeface ARM CPU INT8 量化预测支持如下模型: -shufflenetv2 预测库极致裁剪 Paddle Lite 对现有移动预测库进行了进一步压缩,ARM V8 so 从 1.4M 降到 1.3M;此外,还发布了根据单个模型做定制裁剪的功能,即生成一个只包含该模型必需算子的预测库

    1.3K20发布于 2019-11-11
  • 来自专栏Dance with GenAI

    安克创新CEO阳萌:大模型的机会巨大

    以下是访谈的内容要点: 大模型与私域知识的结合 阳萌首先指出,大模型虽然在通用知识方面表现出色,但在特定领域的知识整合上存在挑战。他认为,将私域知识有效整合进大模型是实现其大规模应用的关键。 大模型的未来发展在 阳萌预测,大模型的未来发展可能会集中在长上下文和RAG两种主流观点上。他强调了大模型侧部署的重要性,以及对隐私和数据安全的关注。 有大模型或者有AI加持之后,未来的机器人和这些传统的机器人最底层的区别:传统的机器人都是用分治法加数理模型控制,新的AI人形机器人一定是的算法来控制的,由一个大脑和一个小脑的两层模型共同支配。 他讨论了大模型在不同细分领域的应用,以及如何通过基座模型实现快速部署。未来大概率是一条流水线加两三个基座模型。 所谓一条流水线就是今天收集数据然后清洗数据、标记数据、训练模型、评估模型,包括做数据闭环,这是一条模型和数据流水线。

    35010编辑于 2024-11-04
  • 苹果能引领AI时代吗?

    太长不看版: 1.技术:模型短期能力有限,云结合是长期状态 ●手机大模型的瓶颈排序: ○电池容量和发热 ○芯片计算速度 ○现有架构下,8G+内存是最低要求 ○内存读写速度可能需要进一步技术突破 ● ~1B量级模型能力有限,性能提升空间不乐观 ●手机模型有实际价值 -> ~10B模型塞到手机里 -> 估计3~4年 ●云+混合将是长期主流 ○模型 + 云上模型 的配合能力将是核心技术点之一 除了苹果,去年以来,各大手机厂商已经陆续发布了其模型的产品: 二、如何评价 模型的成熟度? 1.参数规模:“智商”水平至关重要,模型任重道远 为什么“智商”重要? ,大量超越10B会比较困难 ●在这些极限假设下,续航时间可以满足8-10h要求,并缓解发热问题 3年内看不到纯模型驱动的AI原生OS,复杂任务都需要云上实现 5.多模态大模型的价值主要在多模态理解 ,输入投影~20M,图像编码器~300M 其中,1.4B版本INT4量化,在骁龙888(20年,RAM8GB,26TOPS)上速度21.54 tokens/s ●因此,算力瓶颈,在LLM而不在多模态

    53110编辑于 2024-09-11
  • 来自专栏大前端修炼手册

    模型上 Android:2026 年,手机里跑 LLM 已经不是科幻

    模型上 Android:2026 年,手机里跑 LLM 已经不是科幻 两年前,"手机跑大模型"还是 PPT 里的概念。 当然,也不是万能药——模型能力上限摆在那里,7B 以下的模型做复杂推理还是不如 GPT-4o。但对于很多场景:文本摘要、意图识别、本地问答、个性化回复建议……模型已经够用了。 模型文件怎么分发? 这是 LLM 最绕不开的工程问题。 目前仅限 Pixel 8 及以上,但这是明显的方向。 工程建议:做好模型下载的降级处理。推理不可用时(下载失败、设备性能不足),自动 fallback 到云端 API。 模型更新机制复杂。模型一旦部署,更新就比云端麻烦得多——需要重新下载几百 MB 到几 GB 的文件,还要处理版本兼容。模型版本管理是个绕不开的工程问题。 模型不是云端的替代品,是补充。

    1.3K10编辑于 2026-03-10
  • 释放终端潜能:AI模型——高效、安全、无处不在的智能未来

    模型正引领AI技术变革,将强大的智能直接部署在手机、IoT设备等终端,实现毫秒级响应、极致隐私保护与显著成本优化。探索这项重塑人机交互与行业应用的关键技术。 内容创作:移动图片/视频实时编辑与特效生成。技术基石:如何在资源受限的终端部署强大模型模型的核心挑战在于如何在有限的内存、算力和功耗下保持高性能。 量化:将模型参数和计算从高精度浮点(如FP32)转换为低精度格式(如INT8/FP16),显著减小模型体积、提升计算速度、降低功耗。 模型架构搜索:设计天生小巧高效的网络结构。2.   云协同 (Hybrid AI): 最佳平衡策略:将轻量级、高实时性、强隐私需求的任务放在;复杂计算、大数据分析、模型更新等交给云端。两者无缝协作,提供最优整体体验。为何选择AI? AI模型已不再是未来概念,而是当下提升产品竞争力、优化用户体验、保障数据安全的关键技术。无论您是开发者、产品经理还是企业决策者,现在是时候:评估应用场景:您的哪些业务痛点可通过AI解决(延迟?

    1.5K10编辑于 2025-06-15
  • 来自专栏ceshiren0001

    8B智能写作体开源:DeepResearch,让您告别云端依赖

    长期以来,真正“深度”的研究型写作,一直被云端大模型垄断。 1 月 20 日,清华大学自然语言处理实验室、中国人民大学、面壁智能与 OpenBMB 社区联合开源了 8B 写作智能体 AgentCPM-Report。 它做了一件过去被认为“几乎不可能”的事:在完全本地部署的前提下,把 DeepResearch 级别的写作能力,压进了一个 8B 模型。 三、侧部署,真正解决的是“物理级安全”另一个被反复强调的点,是完全离线、本地运行。 这基本坐实了一件事:模型,已经开始正面进入“高阶认知任务”的战场。五、从 Demo 到生产:部署门槛被拉到极低从工程视角看,这个项目并不“学院派”。

    16710编辑于 2026-01-30
  • 来自专栏量子位

    骁龙最强AI芯能力下放:小旗舰8s发布,运行10B大模型,小米Civi首发

    骁龙8s Gen 3作为骁龙8系“新生代旗舰”,现已正式发布。 它的定位是比最顶级旗舰只弱一点点。 但AI性能丝毫不减:支持100亿参数大模型运行,是骁龙8Gen 3同款配置。 可运行Baichuan-7B,Google Gemini Nano、Llama2和ChatGLM等模型。 这意味着,终端运行AI大模型不再只是高端旗舰机型的特权。 还能实现AI辅助摄影、在终端扩展照片,并用AI对GPU部分性能进行增强。 高通表示,骁龙8s的使命就是为更多智能手机带来领先的终端AI。 它和骁龙8Gen 3的差别也更多体现在细微之处。 值得一提的是,在今年MWC上,高通还展示了一系列多模态大模型在手机、PC上的运行效果。 骁龙8s的推出,意味着骁龙8系产品线的关键变阵。 不少人觉得高通这是要下探中市场了。 而可以肯定的是,骁龙8s肯定可以让更多人能用更加划算的价格,体验到生成式AI手机了。 你看好骁龙8s吗?

    56710编辑于 2024-03-20
  • 来自专栏存储公众号:王知鱼

    WD:Flash加速AI推理在落地

    设备模型推理挑战 AI应用在设备落地过程遇到的问题 SLM 模型虽已显著压缩,但与当前端设备的DRAM容量相比,仍明显超出。 图示 Apple(业内著名内存抠搜)和 Windows 两大OS在融合大模型过程面临挑战。 toC市场对价格非常敏感,提高VRAM以支持客户推理的方式被认为是不经济的。 • 注意力层(Attention Layer)占 8%。 • MLP层占 72%,并且该层是稀疏的。 Note:从工作原理来看,压缩模型体积的重点工作应关注嵌入层和MLP层。 例子:在Gemma 2B参数模型中,保持28%的部分(其中20%为嵌入层(Embedding Layer),8%为注意力层(Attention Layer))驻留在GPU上,而72%的MLP层按需加载( 这在LLM模型规模巨大、设备硬件资源有限的情况下显得尤为重要。 Note:模型稀疏性研究是推动其在有限资源、边设备运行的关键! 存储硬件或软件厂商,能在模型稀疏性上尝试哪些创新?

    56610编辑于 2025-02-11
领券