首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏AI掘金志

    华为AI存储「求解」模型

    存储厂商谁能抢先解耦模型训练的痛点,谁就能占据高地,成为第一个吃螃蟹的人。 作者 | 南书 编辑 | 余快 比起模型前台的火热,人们的注意力很少关注到产业链上游。 如今,国内千行百业涌起模型热潮,进入“群魔共舞”时代,谁能做出中国版的ChatGPT尚且未知。 但训练模型所需要的GPU和存储器,却迎来了一次新的扩容机会。 与数据相伴相生的存储器,在模型的推动下,也正迎来一次技术革命和市场跃迁。 站在微观角度,企业研发模型要经过以下几个阶段:数据归集、数据预处理、模型训练、推理应用,每个阶段都离不开存储。 在数据归集阶段,模型所需要的数据量大且种类繁多。 OceanStor A310 是一款深度学习数据湖存储产品,可以为企业训练模型提供从“数据归集、预处理到模型训练、推理”的存储支撑。

    49930编辑于 2023-08-26
  • 来自专栏人工智能极简应用

    【AI模型】Transformers模型库(十六):safetensors存储类型

    一、引言 这里的Transformers指的是huggingface开发的模型库,为huggingface上数以万计的预训练模型提供预测、训练等服务。 二、safetensors库 2.1 概述 safetensors是一个库,旨在安全地存储和加载机器学习模型的权重,特别是针对PyTorch模型。它通过加密和验证模型数据来增强安全性,防止数据篡改。 () # 保存模型到safetensors格式 save_file(model_state_dict, "model.safetensors") 对应的pytorch保存模型的方法 # 保存模型状态字典 .pth文件不同,它提供了额外的安全特性,特别是在模型的分发和共享方面 三、总结 本篇内容展示了如何使用safetensors库,主要功能旨在安全地存储和加载机器学习模型的权重,特别是针对PyTorch 模型

    4.4K10编辑于 2024-08-13
  • 来自专栏韩曙亮的移动开发专栏

    【AI 模型】Meta Llama 3 模型 ( Llama 3 模型简介 | Ollama 软件下载安装 | Llama3 模型下载 | Llama 3 模型 在线 离线 使用 )

    首先 , 安装 Ollama 软件 , 到 https://ollama.com/ 下载安装 ; 然后 , 运行 ollama run llama3 命令 , 即可开始使用 Llama3 模型 ; 一 、Meta Llama 3 模型安装 1、Llama 3 模型简介 Llama 3 模型 是 Meta 公司 发布的 模型 , Meta 公司 就是 Facebook ; Llama 3 模型 Llama3 模型 ; 下载的模型放在了 C:\Users\用户名.ollama 目录中 , 在我的电脑上的路径是 C:\Users\octop.ollama ; 这个模型很大 , 有 4.7 G 安装完成后的效果 for help) 二、Meta Llama 3 模型使用 1、Llama 3 模型在线使用 在命令行中 , 可以直接进行对话 , 下面是对话内容 : D:\Llama>ollama run llama3 for help) 2、Llama 3 模型离线使用 Llama 3 模型 联网时 , 可以访问云端服务 , 可以生成更加丰富的文本 ; Llama 3 模型 在 断网后也可以使用 , 下面是断开网络后

    1.8K12编辑于 2024-08-09
  • 这届存储,为模型而生!

    模型需要能打的算力和网络,还需要能打的存储。据测算,数据存储约占模型训练整体工程量的20-30%。随着更多AIGC的产生,这个比例还在继续提升。今天,更适合模型的云存储,来了! 腾讯云的最新云存储解决方案,主打三个关键点://更全面:覆盖模型数据采集与清洗、模型训练、模型推理和内容治理等全流程的数据处理。//更能打:模型数据清洗和训练耗时缩短一半。 以3TB大小的 Checkpoint 为例,写入能从10分钟瞬间缩短至10秒内。在GPU发生故障时,能大幅降低对训练时长的影响。 目前,80%的头部模型企业选择了这套云存储解决方案,包括右脑科技、百川智能、智谱、元象等明星模型企业。 此前,腾讯云已经推出了模型训练集群HCC、向量数据库、以及行业大模型服务MaaS等模型全链路云服务。模型将开创下一代云服务,我们也将继续为模型加速落地,铺好路,架好桥。

    71110编辑于 2024-04-08
  • 来自专栏腾讯云存储

    面向模型时代的云存储架构

    沙龙活动中腾讯云存储研发总监严俊明分享了《面向模型时代的云存储架构》的主题演讲。 据 OpenAI 研究显示,模型的智能程度与算力、参数规模呈正相关。训练模型所需的基础设施已达万卡级别,参数从亿级跃升至万亿级,模型存储带来巨大的机遇与挑战。 在模型采集、清洗、训练、推理、“智”理等环节,对存储基础设施提出规模、性能、稳定等多维度的要求。 其中,核心矛盾是模型的海量数据需求和极致性能需求之间的矛盾。 对此,严俊明表示,“模型存储的要求是既要、又要,既要海量低成本的存储引擎,同时又要很高的性能要求,然而企业实践的过程中,这两者往往很难兼顾。” 模型训练阶段,自研 GooseFS-X 高性能存储,提升模型预训练效率;在分发阶段,通过 GooseFS AZ 加速器来提升模型分发效率。 此外,腾讯云还提供一站式安全解决方案来保障数据内容安全。

    50510编辑于 2025-04-30
  • 来自专栏存储公众号:王知鱼

    IMPRESS:模型推理存储优化新突破

    全文概览 模型推理技术正广泛应用于聊天、搜索、代码生成等领域,但其高效运行面临关键挑战:用户提问常共享大量上下文知识,导致系统需频繁加载重复数据。 研究背景与问题 模型推理的挑战:共享上下文导致重复数据加载,SSD-I/O成性能瓶颈。 现有方案局限:内存容量不足、缓存策略忽视键值重要性。 2. 3. 实验验证 准确率:保留率下准确率下降≤0.2%,优于基线方案。 性能提升:TTFT提升1.2-2.8倍,I/O时间减少1.5-3.8倍。 鲁棒性:对块大小、数据集规模及模型类型均表现稳定。 研究背景与问题意识 模型推理 模型推理有海量应用场景,目前已应用于多个领域: 聊天(Chat): ChatGPT 搜索(Search): Perplexity 代码(Code): Cursor 问答 Note FAST 25 很多论文都在讨论推理场景存储访问优化,其核心又集中在缓存管理机制,与早期大数据推荐系统的缓存管理相比,模型的热数据管理,呈现出更大范围的随机性,全部数据加载是不切实际的。

    1.3K10编辑于 2025-03-17
  • 来自专栏开源项目搭建

    简单3步部署本地国产模型DeepSeek模型

    简单3步部署本地国产模型DeepSeek模型DeepSeek是最近非常火的开源模型,国产模型 DeepSeek 凭借其优异的性能和对硬件资源的友好性,受到了众多开发者的关注。 本文将介绍如何通过简单 3 步在本地部署 DeepSeek 模型,让你能够轻松体验这一强大的 AI 工具。 deepseek-r1的哪个版本的模型? 它支持各种LLM,包括Llama 3、Mistral和Gemma。提供了类似OpenAI的API接口和聊天界面,可以非常方便地部署最新版本的GPT模型并通过接口使用。 理论上就安装完成了,可以只在命令行中使用模型了。修改路径文件保存路径可以不用改,如果C盘空间不够用,建议修改。

    6.6K33编辑于 2025-02-06
  • 来自专栏方丈的寺院

    存储优化(3)-mongo表加索引

    摘要 在存储优化(2)-排序引起的慢查询优化中我们提到过排序对查询选择索引的影响。但是的解决办法就是增加一个索引。在线上给mongo的表增加一个索引要慎重。 "historyRecord","filter":{"bizId":1234567},"sort":{"_id":-1},"limit":1}} 增加一个索引 bizId,_id 增加索引过程 对于表 总结 最后解决是通过强制索引来避免索引误判,当然也可以将排序改成 sort({bizId:-1,_id:-1}) 这样也不会误判 总结一下: 表加索引,需要确保不会block表的其他操作,尽量选择空闲时候

    3.2K10发布于 2020-04-01
  • 来自专栏科技云报道

    AI模型疯长,存储扛住了吗?

    存储方面,华为、阿里云、百度智能云、腾讯云等大厂,都相继推出了面向AI模型存储方案。 那么作为基础设施的三件之一的存储,在AI模型的场景下到底发生了哪些变化?又有哪些新的技术挑战? AI倒逼存储技术创新 根据投资机构ARK Invest预算,到2030年,产业有望训练出比GPT-3多57倍参数、多720倍Token的AI模型,成本将从今天的170亿美元降至60万美元。 3TB checkpoint 写入时间从10分钟,缩短至10秒内,使模型训练效率大幅提升。 模型推理场景对数据安全与可追溯性提出更高要求。 总的来说,随着AI模型的推进,数据存储出现了新的趋势。市场渴望更高性能、容量、低成本的存储产品,并加速模型各个环节的融合和效率提升。 而各大厂商也在通过技术创新不断满足模型各环节的需求,为企业实施模型降低门槛。 在AI模型的倒逼下,存储创新已在路上。

    60410编辑于 2024-04-18
  • 来自专栏Alter聊科技

    “烧钱”的模型,如何迈过存储这道坎?

    模型训练的效率要达到极致,减少不必要的浪费,必须在数据上下功夫,准确地说,必须要在数据存储性能上进行创新。 03 数据存储进入到“模型时代”某种程度上说,模型训练催生的数据存储性能要求,不过是文件存储系统加速演变的一个侧面。 直到今天,文件存储的需求仍在不断更新,文件系统的创新也在持续发生,就像模型训练需求所折射出的演进方向。 6倍、可靠性提升3倍,以极低的成本拥抱模型训推浪潮。 无可否认的是,模型正在从前台的“火热”,转向整个产业链条的协同驱动,数据存储正是其中的关键一环。

    1.1K10编辑于 2023-08-30
  • 来自专栏腾讯云存储

    数据湖存储模型中的应用

    本次巡展以“智算 开新局·创新机”为主题,腾讯云存储受邀分享数据湖存储模型中的应用,并在展区对腾讯云存储解决方案进行了全面的展示,引来众多参会者围观。 会中腾讯云高级产品经理林楠主要从模型的发展回顾、对存储系统的挑战以及腾讯云存储模型领域中的解决方案等三个角度出发,阐述存储系统在模型浪潮中可以做的事情。 为什么模型越来越大 对存储系统而言,通用型人工智能也属于应用的一种,那么了解模型的应用机制和核心需求对存储系统的设计也至关重要。 模型存储系统的挑战 回顾GPT3的论文可以发现,模型的整体框架中包括了数据的采集、清洗、预训练、微调、推理等多个阶段。 腾讯云存储模型领域中的解决方案 为了应对模型的技术需求,腾讯云在IaaS、PaaS和SaaS等不同产品方向均提供了多样的技术支持手段,主要体现为三个“快”: 数据读取快:GooseFS数据加速,提供高性能存储

    4.9K20编辑于 2023-11-01
  • CFS Turbo 模型训练存储性能优化实践

    数据来源: 2024腾讯全球数字生态大会,主讲人:杨飞 第一章:模型训练引发的存储元数据瓶颈 随着模型技术演进,训练数据集规模呈现爆发式增长,存储系统面临严峻的元数据管理挑战。 第二章:构建新一代元数据引擎与智能预读机制 针对模型训练场景,CFS Turbo 采用了 新一代自适应条带化目录 技术与 智能预读策略 相结合的技术路径。 2.2 智能预读策略 (Intelligent Read-ahead Policy) 针对模型训练(以混元DiT为例)中涉及的大量数据整理与转换操作(如 os.listdir, glob, find 优化后表现 性能提升倍数 Readdir 性能 - - 提升 55% 100万文件返回速度 30秒 1.4秒 8.6倍 第四章:混元DiT训练场景验证 在腾讯自研的 混元DiT (HunyuanDiT) 模型训练实践中 实战验证: 方案已在腾讯 混元DiT 等千亿级模型训练场景中得到验证,具备处理 百亿级 目录与 亿级 文件的工程成熟度。

    11210编辑于 2026-05-30
  • 来自专栏Soul Joy Hub

    模型AIGC系列课程 3-2】国产开源模型:ChatGLM

    GLM https://arxiv.org/pdf/2103.10360.pdf GLM是General Language Model的缩写,是一种通用的语言模型预训练框架。 这个图示说明了GLM预训练的过程,具体解释如下: a) 原始文本:给定一个原始文本,例如[x1, x2, x3, x4, x5, x6]。 在这个例子中,我们随机选择了两个连续的词片段[x3]和[x5, x6]作为样本。 b) 替换和洗牌:在Part A中,我们将被选择的词片段替换为[M](表示遮盖)。 在这个例子中,我们将[x3]和[x5, x6]洗牌为[x5, x6]和[x3]。 c) 自回归生成:GLM使用自回归的方式生成Part B。 在生成过程中,模型可以根据之前生成的词片段和Part A中的上下文来预测下一个词片段。 d) 自注意力掩码:为了限制模型的注意力范围,

    82920编辑于 2023-08-28
  • 来自专栏腾讯云存储

    高性能存储模型融合创新相关研究

    在2023年中国数据与存储峰会“AIGC+存储融合发展论坛”上,腾讯云存储高级产品经理熊建刚老师发表主题演讲,就高性能存储模型融合创新相关研究展开探讨,以及腾讯云存储的实践案例。 熊老师耕耘存储20年,在腾讯云从事云存储领域的高性能存储以及与模型融合创新方面的研究工作,致力于推动云技术和人工智能的创新与发展。 站在业务角度,把整个大模型分为以下几个主要阶段,1)数据注入,方式有多种,来满足模型需要各种语料的注入;2)数据预处理,常见的批注,结构化的处理;3)训练和精调,一轮训练跑下来是比较费成本;4)推理, 对存储产品主要有以下几个诉求,1)统一存储,一套存储能够支撑全流程处理,支持数据自由流动,避免等待数据、避免在不同的存储产品之间切换、避免来回拷贝数据;2)足够高性能,避免算力等待存储而导致浪费;3)内容审核 随着模型的发展,对数据湖诉求进一步加强。 第一,更高的可靠性和可用性,避免存储的故障到算力资源的浪费。

    47710编辑于 2024-01-31
  • 来自专栏openclaw系列

    OpenClaw怎么换模型3步免费切换各种模型配置教程

    一句话总结:OpenClaw 本身不内置任何模型,而是通过灵活的配置机制对接各类模型服务。更换模型只需三步:选择目标模型获取 API Key、在配置文件中添加模型提供商、重启网关生效。 但很多人忽略了一个关键问题:OpenClaw 本身不包含任何 AI 模型。就像一台性能再强的电脑,没有操作系统也无法工作。OpenClaw 的“大脑”完全来自你接入的模型。 第一章:核心原理——OpenClaw 如何对接模型?1.1 为什么需要更换模型?OpenClaw 的核心价值在于“连接”——连接模型的思考能力与电脑的真实操作权限。 2.1 腾讯元宝模型配置(推荐中文场景)腾讯元宝基于混元模型,提供强大的中文理解和多模态能力,2026 年推出免费额度方案,大幅降低使用门槛。 Q3:本地模型响应太慢怎么办?

    21.1K54编辑于 2026-03-28
  • 来自专栏大模型应用

    模型应用:模型本地部署的磁盘空间优化:模型分片存储与按需加载.48

    为了破解这一难题,模型分片存储与按需加载成为模型本地部署磁盘空间优化的核心方案。 模型的体量 模型的体型非常庞大,比如 LLaMA 2 70B 模型,完整参数文件的大小超过130GB;GPT-3 的参数规模更是达到 1750 亿,完整存储需要数百 GB 甚至 TB 级别的磁盘空间 模型分片存储模型的完整参数文件,切成若干个小的分片文件,就像把一整块蛋糕切成小块,分别放在不同的盘子里。 模型的参数存储形式模型的参数本质上是海量的数值矩阵,这些矩阵以二进制文件的形式保存在磁盘上,常见的格式有:.bin 格式:最常见的模型参数文件格式,直接存储二进制参数数据。. 同时 响应耗时:56.05 秒 ===== 测试案例 2 ===== 用户输入:解释什么是模型分片存储 模型回复:在大数据处理和机器学习领域,"模型分片存储"是一种将大型深度学习模型分割成多个小块

    56444编辑于 2026-03-17
  • 来自专栏大模型成长之路

    模型学习 | DeepSeek-V3原理】

    DeepSeek-V3 Technical Report DeepSeek-V3 的基本框架还是 Transformer。 另外,V3 模型是通过将预测多token作为训练目标。本文主要是对DeepSeek-V3模型框架以及训练目标进行讨论。 什么是负载平衡? 2️⃣ DeepSeekMoE 在Transformer架构中的FFN层,V3模型采用了MoE进行替换,使用更细粒度的专家,并将一些专家隔离为共享专家。 ✅ Yes ✅ 无偏置 目前的模型权重已开源: https://huggingface.co/deepseek-ai/DeepSeek-V3-Base 者由于设备限制无法对 V3模型进行体验。

    1.5K21编辑于 2025-07-25
  • 来自专栏AI工程落地

    语言模型--Llama3新特性

    更大的词表使得模型涵盖的语言更多、更加通用 Attention层--MultiHeadAttention算子 Llama3 8B和70B都使用了分组查询注意力机制(GQA),4个Query共享一对Key 减少了计算量,同时保持了模型的性能。 值是500000.0(Llama2用的是默认值10000.0) 上下文窗口中的最大Tokens从 4096增加到 8192 数据类型 Llama2开源的参数是float16格式的,但Llama3开源的参数都是 依赖软件包 transformers包升级到4.40.0以上 模型版本 2024年4月21号 初版 Llama3 8B的HellaSwag分数:acc 0.6039、acc_norm 0.776 2024年5月14号 第二版 Llama3 8B的HellaSwag分数:acc_norm 0.822

    38310编辑于 2024-05-29
  • 来自专栏焱融科技

    如何提升存储性能之IO模型和AIO揭秘

    如何提升存储系统的性能是一个对存储工程师们来说是永恒的大命题,解决这个问题并没有一击即中的银弹,IO性能的优化都在细节里。今天我们来讲一讲性能和IO模型之间的关系。 我们先从本地磁盘的IO模型说起。 在IO完成后的那次系统调用,系统会返回数据,这意味着IO可能已经完成了,但仍需应用再次主动请求,才能获得数据,所以会带了一些额外的延时,存储整体的延时性能差,且发生了多次内核和用户态之间的上下文切换,对延时要求高的应用一般不会采用该模型 例如顺序IO,性能可能反而不如dio,这是因为buffer io要先写内存,再刷盘,而HDD或其它磁盘直接进行顺序IO性能可能更高;另外某些对数据可靠性要求比较高的场景中,写pagecache可能会有数据丢失的风险 03 分布式文件系统对AIO的支持及意义 对网络存储或者外部存储来说,客户端主要功能就是IO转发,所以客户端不涉及直接访问磁盘(IO访问模型,尤其是AIO的初衷,就是解决本地访问的问题),所以通常来说( 场景3:date_len > PAGE_SIZE,数据在首个page内有偏移。 对于写而言:可以参考读的逻辑,大体上也是封装请求异步下发。

    2.1K22发布于 2020-11-13
  • 来自专栏腾讯云存储

    TStor CSP文件存储模型训练中的实践

    比如聚焦在模型平台的存储领域,如何管理海量的模型训练物料、如何提升存储系统的性能、如何做好数据安全和信息合规等等,这些问题已成为领域内的火热话题,也成为了国内模型工程领域能否更上一层楼的关键因素。 本文围绕了模型训练的存储场景,分享TStor CSP作为腾讯内外部模型训练场景的存储底座的心得和最佳实践。 TStor CSP模型存储解决方案架构 在模型预训练阶段,工程平台会围绕海量语料从零开始进行无监督的训练,通过迭代N个epoch从而得到一个基座模型;业务通过对基座模型进行有监督的微调得到满足业务场景的专业模型模型系统中同样如此,存储系统的IO中断或数据丢失会直接影响模型训练效果,严重者会导致近几个epoch任务需要推倒重做,大大影响了业务效率。 【图3.

    2.6K20编辑于 2023-11-01
领券