首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏.NET 全栈开发专栏

    模型实战指南:微调、部署、应用开发

    什么是模型模型是指在边缘设备(如个人电脑、移动设备等)上运行的大型语言模型。相较于云端部署,模型具有以下优势:低延迟:本地运行无需网络请求,响应更快。 微调模型微调是优化模型性能的关键步骤,通过在特定数据集上训练模型,使其更适合目标任务。 部署模型部署是将微调后的模型集成到 Ollama 并运行的过程。 总结通过本指南,你已经学会了如何在本地设备上完成模型的微调、部署和应用开发。以下是关键步骤的回顾:准备环境:安装 Ollama、MiniConda 和 Qwen2.5-0.5B 模型。 本部署实践学习自datawhale开源社区,希望这篇指南也能帮助你快速上手模型的开发!如果有任何问题,欢迎在评论区交流。

    1.6K21编辑于 2025-08-05
  • 模型浪潮奔涌而至:态势、影响与建议

    腾讯研究院模型研究小分队出品 自苹果推出AI手机以来,模型的产品发布进入加速期。 1010日,Vivo推出蓝心模型 3B,其AI能力已覆盖60多个国家和地区,服务超5亿手机用户,模型token输出量超过3万亿;随后,字节发布首款AI智能体耳机Ola Friend,与豆包深度集成 一、模型的兴起 模型指在终端设备(如智能手机、平板、PC、智能穿戴设备、自动驾驶及具身智能等)上运行的大型预训练模型。 其中,智能手机和电脑是当前端模型应用最有前景的领域,模型可以实现图像处理、自然语言理解和生成、人脸识别、语音助手和翻译等功能,在电脑模型还可以分析用户自身的各类多媒体文件,生成用户自己的个性化小模型 从长远来看,模型还将与云端模型结合将解锁更多应用场景。根据Scaling Law法则,云端模型在综合能力上始终领先于模型一个数量级。

    1.1K20编辑于 2024-10-31
  • 来自专栏算法一只狗

    苹果AI手机发布后,AI模型前景如何?

    1.国内外纷纷推出自己的模型先来看看苹果推出的结合模型,网上说是与OpenAI合作,部署的是GPT-4o模型。 除了这两家之外,各大厂商也陆续发布自己的模型,每个厂商最大的参数量也就只有7B左右,而像小米、苹果这种发布的自家模型,仅有3B以下参数量。 手机模型最实际的价值应该是把10B模型塞入到手机中,随着手机性能的溢出,这个未来应该是不远。 2.AI模型现状AI模型是指将AI模型运行于用户的终端设备上,如手机或计算机,而不是依赖云端服务器。 因此可以说,目前的模型本质上效果已经有了较大的提升。

    1.2K20编辑于 2024-09-26
  • 来自专栏AI学习笔记

    AI 新战场:MoE 模型压缩与移动芯片适配

    在人工智能领域的浩瀚星河中, AI 正冉冉升起,成为备受瞩目的新星。随着技术的不断演进,人们对 AI 的需求已不再局限于云端服务器的强大算力,而是逐渐向移动设备等延伸。 从智能手机中智能语音助手的实时响应,到智能摄像头对画面的精准识别, AI 正在悄无声息地改变着我们的生活方式。 然而, AI 的发展并非一帆风顺。 (二)困境:庞然物的之旅 尽管 MoE 模型在性能上表现出色,但它的庞大体积和复杂结构,使得它在的部署困难重重。 二、MoE 模型压缩:瘦身之旅 (一)模型压缩的 “三板斧” 为了帮助 MoE 模型摆脱困境,顺利进入模型压缩技术成为了关键的解决方案。 (二)实例实战:图像分类 MoE 模型的压缩 案例背景 :我们有一个用于图像分类的 MoE 模型,它包含 5 个卷积专家网络和一个全连接门控网络,主要用于识别 CIFAR - 10 数据集中的

    87000编辑于 2025-07-04
  • 来自专栏AI学习笔记

    MoE 推理:Mixtral 模型手机部署

    一、推理与 MoE 模型概述(一)推理的概念与意义推理指的是在终端设备上直接进行的模型推理计算,而非依赖云端服务器。 这种结构使得 MoE 模型在处理复杂的、多样化的数据时具有较高的灵活性和准确性。(三)MoE 模型推理中的挑战尽管 MoE 模型具有许多优势,但在推理中也面临着一些挑战。 (三)Mixtral 模型的优势Mixtral 模型推理中具有以下显著优势:高效率 :通过优化的 MoE 结构,能够在有限的计算资源下实现快速的推理计算,满足手机实时交互的需求。 通过让小模型学习模型的输出或中间表示,来提高小模型的性能。 旨在提高模型的推理效率和性能。

    68810编辑于 2025-07-14
  • 来自专栏Dance with GenAI

    安克创新CEO阳萌:模型的机会巨大

    以下是访谈的内容要点: 模型与私域知识的结合 阳萌首先指出,模型虽然在通用知识方面表现出色,但在特定领域的知识整合上存在挑战。他认为,将私域知识有效整合进模型是实现其大规模应用的关键。 模型的未来发展在 阳萌预测,模型的未来发展可能会集中在长上下文和RAG两种主流观点上。他强调了模型侧部署的重要性,以及对隐私和数据安全的关注。 有模型或者有AI加持之后,未来的机器人和这些传统的机器人最底层的区别:传统的机器人都是用分治法加数理模型控制,新的AI人形机器人一定是的算法来控制的,由一个大脑和一个小脑的两层模型共同支配。 相信在很多个细分品类把模型这些先进技术应用起来,可以做出真正的极具创新的开拓性的产品。 模型在产品中的应用 阳萌描述了安克创新如何将模型应用于音频领域,并分享了未来的计划。 他讨论了模型在不同细分领域的应用,以及如何通过基座模型实现快速部署。未来大概率是一条流水线加两三个基座模型

    35410编辑于 2024-11-04
  • 来自专栏大前端修炼手册

    模型上 Android:2026 年,手机里跑 LLM 已经不是科幻

    模型上 Android:2026 年,手机里跑 LLM 已经不是科幻 两年前,"手机跑模型"还是 PPT 里的概念。 当然,也不是万能药——模型能力上限摆在那里,7B 以下的模型做复杂推理还是不如 GPT-4o。但对于很多场景:文本摘要、意图识别、本地问答、个性化回复建议……模型已经够用了。 模型文件怎么分发? 这是 LLM 最绕不开的工程问题。 模型更新机制复杂。模型一旦部署,更新就比云端麻烦得多——需要重新下载几百 MB 到几 GB 的文件,还要处理版本兼容。模型版本管理是个绕不开的工程问题。 模型不是云端的替代品,是补充。 芯片算力还在快速提升,模型量化技术越来越成熟,Gemma、Phi-3 这类专为设计的小模型效果越来越好。 如果你在做 C App,这是一个值得提前布局的方向。

    1.3K10编辑于 2026-03-10
  • 来自专栏深度学习与python

    小米小爱同学:资源受限下,实现模型的高性能推理

    采访嘉宾|杨永杰,小米 小爱同学 AI 负责人 编辑|罗燕珊 随着模型能力持续提升,如何将其有效部署到设备,成为产业界面临的重要工程挑战。 面向未来,杨永杰认为,模型的突破将依赖两方面:一是面向模型优化的硬件能力提升,二是模型架构的演进,比如 Linear Attention 架构。 所以,从目前来看,模型的发展还没有到一个“相对稳定”的阶段。不像传统模型发展成熟之后,各家公司会因为成本或场景要求,逐步考虑往迁移。现在的模型更像是在做技术积累,是面向未来的准备。 杨永杰: 是的,我们团队自研了一个用于模型推理的框架。之所以选择自研,主要是因为目前针对模型推理框架非常少,开源的方案更是寥寥无几,即使有,往往也是针对 CPU 或 GPU 的。 而我们通过自研策略,在实现了高达 7~10 倍的 decoding 加速,大幅缓解了推理慢的问题。

    86800编辑于 2025-06-25
  • 来自专栏量子位

    骁龙最强AI芯能力下放:小旗舰8s发布,运行10B模型,小米Civi首发

    但AI性能丝毫不减:支持100亿参数模型运行,是骁龙8Gen 3同款配置。可运行Baichuan-7B,Google Gemini Nano、Llama2和ChatGLM等模型。 这意味着,终端运行AI模型不再只是高端旗舰机型的特权。 卢伟冰已抢官宣,小米Civi 4 Pro将全球首发骁龙8s Gen3,红米后续也会搭载。 还能实现AI辅助摄影、在终端扩展照片,并用AI对GPU部分性能进行增强。 高通表示,骁龙8s的使命就是为更多智能手机带来领先的终端AI。 值得一提的是,在今年MWC上,高通还展示了一系列多模态模型在手机、PC上的运行效果。并发布了最新一代WiFi 7解决方案FastConnect 7900。 不少人觉得高通这是要下探中市场了。 而可以肯定的是,骁龙8s肯定可以让更多人能用更加划算的价格,体验到生成式AI手机了。 你看好骁龙8s吗?欢迎评论区讨论~

    56710编辑于 2024-03-20
  • 来自专栏网络安全技术点滴分享

    深度解析苹果与云端基础模型技术架构

    芯片API采用CoreML和Metal这种垂直整合使苹果避免GPU短缺问题,同时通过ML任务反哺硬件迭代。 五核心模型解析3B参数语言模型 类似微软Phi-3-mini和谷歌Gemini Nano-2规模基于OpenELM改进,支持LoRA/DoRA适配器49K词表专为指令跟随优化云端MoE模型(预估 130B-180B参数) 架构对标GPT-3.5,运行在私有云计算集群采用混合专家系统提升推理效率XCode代码模型(2B-7B参数) 专精Swift代码补全(FIM任务)集成项目上下文感知能力 0.6ms/首token延迟令牌推测技术预期提速2-3倍训练技术揭秘数据并行+张量并行+序列并行组合策略FSDP分片降低GPU内存峰值混合真实数据与合成数据训练网页爬取数据经过FineWeb级清洗基准测试争议模型 +适配器 vs Phi-3-mini基础模型的不对等比较macOS Sequoia量化模型与float16版本的性能误导性对比Mistral 7B未包含安全过滤的基准差异隐私优先设计哲学处理优先原则私有云计算确保数据安全垂直整合实现硬件级优化

    37800编辑于 2025-07-26
  • 来自专栏机器之心

    最强,Meta田渊栋等人卷10亿以下参数小模型,LeCun:小技巧启动

    论文地址:https://arxiv.org/pdf/2402.14905.pdf 现阶段语言模型(LLM)已经渗透到人类生活的各个方面,尤其是以 ChatGPT 等为代表的模型,这类研究主要在云环境中运行 随着 DRAM 容量从 iPhone 15 的 6GB 到 Google Pixel 8 Pro 的 12GB 不等,一个移动应用不应超过 DRAM 的 10%,因为 DRAM 需要与操作系统和其他应用程序共享 基于上述考量,来自 Meta 的研究者专注于设计参数少于十亿的高质量 LLM,这是在移动部署 LLM 比较好的解决方案。 此外,在下游任务中,例如 Chat 和 API 调用,MobileLLM 模型家族显著优于同等规模的模型。 该机构通过使用低于 10 亿参数的模型,并且 350M 8 位模型的能源消耗仅为 0.035 J/token ,要是部署在 iPhone 上的话,可以支持用户一整天的会话使用。」

    32410编辑于 2024-02-28
  • 来自专栏Android开发指南

    10.拉删除

    * 应用场景: 聊天列表界面,邮件管理界面等条目管理(设为已读, 删除等) * 功能实现: 参考 滑面板 offsetLeftAndRight , offsetTopAndBottom activity_main android:text="Name" /> </LinearLayout> </com.itheima.swipelayout.ui.SwipeLayout> SwipeLayout /** * 拉删除控件

    49520编辑于 2022-01-12
  • 来自专栏深度学习与python

    Arm 发布全新 Armv9 边缘 AI 计算平台,可运行超 10 亿参数 AI 模型

    据介绍,该平台以全新的 Arm Cortex-A320 CPU 和边缘 AI 加速器 Arm Ethos-U85 NPU 为核心,可支持运行超 10 亿参数的 AI 模型。 与上一代 Cortex-A35 相比,Cortex-A320 在机器学习(ML)计算能力上提升了 10 倍,标量计算性能提高了 30%。同时其能效比较 Cortex-A520 提升了 50%。 Cortex-A320 CPU 和 Ethos-U85 NPU 实现了深度配合:Cortex-A320 可以为 Ethos-U85 提供更高的内存容量与带宽,让模型在 Ethos-U85 上的执行如虎添翼 与去年发布的基于 Cortex-M85 搭配 Ethos-U85 的平台相比,全新 Armv9 边缘 AI 计算平台的 ML 计算性能提升了 8 倍,带来了显著的 AI 计算能力突破, 助力模型与生成式 KleidiAI 已经集成到多个主流 AI 框架,包括 Llama.cpp、ExecuTorch 和 LiteRT(通过 XNNPACK),可加速 Meta Llama 3 和 Phi-3 等主流 AI 模型

    67310编辑于 2025-03-13
  • 来自专栏Android开发指南

    10.拉删除

    * 应用场景: 聊天列表界面,邮件管理界面等条目管理(设为已读, 删除等) * 功能实现: 参考 滑面板 offsetLeftAndRight , offsetTopAndBottom activity_main android:text="Name" /> </LinearLayout> </com.itheima.swipelayout.ui.SwipeLayout> SwipeLayout /** * 拉删除控件

    826110发布于 2018-05-14
  • AI的终极形态

    尽管如此,终端生态多方的信心并没有受到影响,大家正在使尽浑身解数共同促进AI的实现。模型“压缩”极限不断下探7B的预期侧门槛正在被进一步打破。 然而,在接下来的不到两个月时间里,谷歌DeepMind更新发布了Gemma 2 2B,再次将通用模型的极限推到了2.6B这个新的“下限”,从上级模型中蒸馏而来的轻量级小模型Gemma 2 2B在模型竞技场 无论是还是云端AI,模型都只是底层计算;要实现用户价值,还需要一个繁荣的应用生态和强大的工具集来提供支持。 虽然许多小模型在特定能力上已经具备了媲美十倍甚至百倍参数模型的实力,GPT-4经常被用作这些模型的比较对象,并且“偶有失手”。 云端模型始终比模型先进一个以上的数量级。

    80810编辑于 2024-08-28
  • 来自专栏数据猿

    模型带来的三个新思考:剪枝、蒸馏、量化

    然而,模型的部署和应用面临着诸多挑战,如计算资源消耗、数据传输延迟、隐私保护等问题。因此,化成为模型落地的重要方式。 首先,化能够有效降低计算资源的消耗。 而化将模型直接部署到终端设备上,避免了数据传输的过程,从而降低了数据传输延迟。 化有助于保护用户隐私。 化将模型部署到终端设备上,用户数据在本地进行处理,无需传输到服务器,从而有效保护了用户隐私。 此外,化还可以促进模型的个性化和定制化。 例如,结合终端设备的传感器和摄像头,模型可以实现更精准的环境感知和目标检测;结合终端设备的语音识别和自然语言处理能力,模型可以实现更智能的人机交互和智能助手。 因此,化是模型落地的重要方式。 随着人工智能技术的不断进步和终端设备的性能提升,化将发挥越来越重要的作用,为人工智能应用的落地和发展提供有力支持。 于是,在模型化的前提下,出现了三种新的业务模式。

    84810编辑于 2024-06-19
  • 来自专栏AIWalker

    高效骨干RepGhost | 重参数赋能GhostNet,达成超高效骨干

    https://github.com/ChengpengChen/RepGhost

    52810编辑于 2024-02-17
  • 来自专栏新智元

    扩散模型失宠?非自回归图像生成基础模型Meissonic登场,超越SDXL!

    新智元报道 编辑:LRST 【新智元导读】刚刚,一款专为消费级显卡设计的全新非自回归掩码图像建模的文本到图像生成模型——Meissonic发布,标志着图像生成即将进入「时代」。 近年来,语言模型在自然语言处理领域取得了巨大的突破,以LLaMA和Qwen等为代表的模型展现了强大的语言理解和生成能力。 自回归文本到图像模型(如LlamaGen)通过预测下一个token生成图像,但由于生成的图像token数量庞大,自回归模型在效率和分辨率上也面临瓶颈,难以应用到实际场景。 高效推理与训练的结合 在文本到图像合成领域,Meissonic模型凭借卓越的效率脱颖而出。该模型不仅在推理过程中实现了高效性,同时在训练阶段也显著提升了效率。 广泛影响 最近,移动设备上的文本到图像应用如谷歌Pixel 9的Pixel Studio和苹果iPhone 16的Image Playground相继推出,反映出提升用户体验和保护隐私的日益趋势。

    25810编辑于 2025-02-14
  • 来自专栏AI学习笔记

    AutoML:硬件感知NAS 2.0

    引言在移动设备和物联网(IoT)快速发展的今天,将机器学习模型直接部署到设备(如智能手机、平板电脑、嵌入式设备等)已成为一种趋势。 然而,设备的硬件资源(如计算能力、内存、电池寿命等)通常有限,这给模型部署带来了巨大挑战。传统的机器学习模型开发流程往往忽视了设备的硬件特性,导致模型在实际部署时性能不佳或无法运行。 模型优化挑战在设备上部署深度学习模型面临诸多挑战:挑战类型具体问题影响计算资源限制有限的CPU/GPU计算能力模型推理速度慢内存限制有限的内存空间无法加载大型模型能耗限制电池寿命有限模型持续运行时间短热限制设备散热能力差长时间运行导致设备过热硬件感知 AutoML部署流程环境配置在开始AutoML部署之前,需要确保以下环境配置:硬件平台:目标设备(如搭载骁龙处理器的智能手机、NVIDIA Jetson开发板等)开发环境:Python 3.8 ,需要将其部署到设备上。

    48110编辑于 2025-07-22
  • 来自专栏AI科技评论

    国产模型超越 GPT-4V,「多模态」能力飞升

    模型的解耦难题:是模型适配终端,还是终端适配模型? 此外,由于视觉是上一代 AI 与终端应用结合的主流,如智能手机中的人脸识别、语音交互,多模态也成为模型的性能首选。 图注:OpenCompass 榜单变化显示,小参数、高性能模型逐渐成为 AI 技术趋势 据 AI 科技评论观察,国内的模型团队在上也发力迅猛。 在语言模型推理方面,目前开源社区的报告结果中,Llama 3 语言模型在手机的解码速度在 0.5 token/s 上下,相比之下,多模态模型运行面临着更大的效率挑战,经过 CPU、编译优化、 总的来说,面壁最新取得的多模态模型成果 MiniCPM-Llama3-V 2.5 是国产之光,加速了国产模型部署在的节奏,也给 AI 行业提供了多方位的参考。

    1.4K10编辑于 2024-05-22
领券