首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏IT技术订阅

    DeepSeek分布式模型训练详解

    随着人工智能技术的飞速发展,大规模预训练语言模型(LLM)逐渐成为研究和应用的热点。DeepSeek作为一款高性能的预训练语言模型,其分布式模型训练技术在业界引起了广泛关注。 本文将从分布式训练架构、关键技术优化、训练过程、模型配置与超参数设置、数据集准备与处理以及训练任务启动等方面,深入解析DeepSeek的分布式模型训练过程。 七、总结 DeepSeek的分布式模型训练技术在大规模预训练语言模型训练过程中发挥了重要作用。 通过优化计算集群架构、并行策略、通信和内存管理等方面,DeepSeek能够高效地利用大规模集群的计算资源,实现高性能的模型训练。 同时,通过精心设计的训练过程、模型配置和超参数设置,DeepSeek能够在大规模数据集上进行稳定的训练,并生成高质量的语言模型

    1.2K11编辑于 2025-02-18
  • 来自专栏人工智能

    腾讯云AI实战:DeepSeek模型训练与微调

    那么本文就来详细介绍如何使用腾讯云的工具进行DeepSeek模型训练和微调,帮助大家快速上手并深入理解模型训练的实际操作。 从零开始:DeepSeek模型训练接下来就来从头开始进行DeepSeek模型训练。(一)准备工作在开始训练之前,需要做些准备工作,如下所示:注册腾讯云账号:访问腾讯云官网,注册账号并完成实名认证。 TI One平台进行DeepSeek模型训练,可以通过下面步骤完成。 1、创建训练任务在TI One平台上创建一个新的训练任务,选择DeepSeek模型,并配置训练参数。 2、编写训练脚本编写训练脚本,使用DeepSeek模型进行训练,这里用一个简单的训练脚本示例来给大家分享,具体如下所示:import tencentcloud from tencentcloud.tione.v20211111

    4.2K82编辑于 2025-02-06
  • 来自专栏《C++与 AI:个人经验分享合集》

    《探秘DeepSeek优化器:解锁模型训练的高效密码》

    在人工智能领域,模型训练的效率与效果紧密关联着其应用前景。DeepSeek作为备受瞩目的大语言模型,在众多自然语言处理任务中表现出色,这背后,适配的优化器功不可没。 今天,就让我们一同深入剖析DeepSeek使用的优化器特点,以及它们如何精准满足模型训练需求。 自适应学习率调节,灵活应对训练动态 DeepSeek采用的优化器具备自适应学习率调整机制。 在DeepSeek处理大规模文本数据时,这种自适应学习率调整机制让模型能根据不同阶段的训练需求,灵活调整参数更新步长,有效提升训练效率与效果 。 这种对分布式训练的良好支持,使得DeepSeek能够利用大规模集群的计算能力,处理海量数据,训练出更强大的模型DeepSeek使用的优化器凭借自适应学习率调节、高效梯度处理、分布式训练支持以及与模型架构的深度适配等特点,为模型训练提供了强大助力。

    31410编辑于 2025-02-20
  • 来自专栏老张的求知思考世界

    DeepSeek模型的基本原理与训练方法

    本月初,即9月1日当天,DeepSeek公布了其大模型的基本原理和训练方法,下面是我整理的核心内容。 原文链接如下: https://cdn.deepseek.com/policies/zh-CN/model-algorithm-disclosure.html 一、模型的基本原理 DeepSeek模型基于大语言模型 模型运行分为两个阶段: 训练阶段:包括预训练和优化训练(微调)。 DeepSeek所有模型均开源,通过MIT协议公开发布权重、参数和推理代码,并提供完整技术报告供社区参考。 风险控制:DeepSeek贯穿生命周期实施安全措施(如内部管理制度、模型安全评估、红队测试、增强透明度)。

    1K10编辑于 2025-10-10
  • 来自专栏AI

    DeepSeek NSA:突破数据瓶颈,开启AI模型训练新范式

    近日,中国AI公司深度求索(DeepSeek)发布了一项名为神经缩放增强(Neural Scaling Augmentation, NSA)的技术,通过创新的数据生成与模型优化方法,为突破现有训练瓶颈提供了全新的解决方案 DeepSeek NSA的核心创新在于将数据生成与模型训练深度融合: 动态数据合成引擎:通过预训练模型分析现有数据分布,生成符合任务需求的高质量合成数据,同时引入对抗性样本以增强鲁棒性; 缩放感知训练框架 :在训练过程中动态调整合成数据与真实数据的比例,结合课程学习策略,使模型逐步适应不同复杂度场景; 参数效率优化:通过稀疏激活和分层注意力机制,减少冗余计算,使模型在较小参数量下实现接近大型模型的性能。 行业影响:AI民主化的新里程碑DeepSeek NSA的推出可能引发行业级变革。 结语DeepSeek NSA的诞生标志着AI基础研究从“暴力缩放”向“智能缩放”的转型。随着合成数据生成、模型高效训练等技术的成熟,人工智能有望摆脱对数据规模的过度依赖,进入更可持续的发展阶段。

    77400编辑于 2025-02-18
  • 来自专栏人工智能领域

    DeepSeek Model Zoo:解锁预训练模型的宝藏地图(1218)

    摘要:DeepSeek Model Zoo 是一个集多种先进预训练模型于一体的宝库,涵盖自然语言处理(NLP)、计算机视觉(CV)和语音等多个领域。 DeepSeek Model Zoo 作为一个集多种先进预训练模型于一体的宝库,为研究者和开发者们提供了丰富的资源和强大的工具 。 这样,新模型不仅继承了预训练模型的强大语言处理能力,还能快速适应医疗领域的特殊语言表达和任务需求,大大提高了模型训练效率和性能。 领域适配策略:定制专属模型 DeepSeek 针对不同领域的特点,制定了一系列精准有效的迁移学习策略 。在选择预训练模型时,会充分考虑目标领域与预训练数据的相关性。 对于一些与预训练数据分布较为相似的任务,可以对预训练模型的最后几层进行微调,让模型能够更好地适应目标任务的具体需求。

    41010编辑于 2025-02-28
  • 来自专栏人工智能

    DeepseekDeepSeek-R1训练方式分析

    .纯强化学习训练的语言模型 DeepSeek-R1-Zero研究者首先提出了一个完全基于强化学习(RL)训练模型DeepSeek-R1-Zero,该模型不依赖任何有监督微调(SFT)数据。 通过RL训练,DeepSeek-R1-Zero展现出了许多强大而有趣的推理行为,如自我验证、反思、生成长推理链等。这标志着纯RL训练语言模型是可行的,为未来研究指明了方向。 实验结果表明,经过数千步RL训练后,DeepSeek-R1-Zero在多个推理基准测试中取得了超越监督微调模型的性能。 具体来说,DeepSeek-R1的训练分为四个阶段:1)冷启动阶段:收集数千条长推理链数据,在此基础上对预训练语言模型进行微调,作为后续RL的起点。 纯RL训练揭示了语言模型的惊人学习能力,冷启动数据和多阶段RL进一步优化了训练效果,蒸馏则为RL成果的快速应用铺平了道路。这些RL实践相互配合,支撑起了DeepSeek-R1卓越的推理表现。

    96410编辑于 2025-02-12
  • 来自专栏IT技术订阅

    DeepSeek EP并行专家通信技术解析:打破大模型训练瓶颈

    随着模型规模的不断扩大,传统的通信机制逐渐暴露出瓶颈,难以满足高效并行计算的需求。在此背景下,DeepSeek开源的DeepEP通信库应运而生,为解决这一问题提供了新的思路和技术方案。 本文将深入解析DeepSeek EP并行专家通信技术的核心机制,并探讨其在实际应用中的重要意义。 这些模型通过海量参数和复杂的神经网络结构,实现了对自然语言的高效理解和生成。然而,随着模型规模的不断增大,传统的单机训练模式已无法满足需求,分布式训练成为必然选择。 为了解决这些问题,DeepSeek开源了DeepEP通信库,专为MoE模型设计,旨在通过优化通信机制,打破大模型训练和推理的瓶颈,提升分布式计算的效率。 三、DeepEP通信库的实际意义 (一)提升训练效率 在大规模分布式训练中,通信效率是制约模型训练速度的关键因素之一。传统的通信机制往往存在带宽瓶颈和延迟问题,导致模型的迭代速度缓慢。

    1.2K00编辑于 2025-02-27
  • 来自专栏AI研思录

    白话科普 | 看完即可上手DeepSeek训练,构建专属大模型,LoRA技术让你轻松训练行业大模型

    本文深入解析微调的核心原理,结合实际代码案例,手把手教你如何用LoRA(Low-Rank Adaptation)高效微调大模型。从数据准备到参数配置,再到模型训练与评估,每一步都详细拆解。 在AI领域,大模型的预训练就像建造一座摩天大楼的地基,而微调则是为这座大楼装上定制化的窗户和门,让它更适合你的需求。 无论是ChatGPT、GitHub Copilot,还是最近爆火的DeepSeek,背后都离不开微调技术的身影。 微调的基本概念 微调(Fine-tuning)是指在已经训练好的大模型基础上,针对特定任务或场景进行进一步训练的过程。与从零开始训练一个模型相比,微调可以大幅降低时间、计算资源和数据的需求。 DeepSeek的成功只是一个开始,未来还有无数机会等待我们去探索。----

    1.8K11编辑于 2025-02-20
  • 来自专栏Dance with GenAI

    图解DeepSeek-R1大模型—推理型大语言模型(LLM)的训练秘密

    本文目录: ●大型语言模型(LLM)训练方式回顾 ●DeepSeek-R1 训练配方 ●1 - 长推理链监督式微调(SFT)数据 ●2 - 一个中期高质量推理 LLM(但在非推理任务上表现较差)。 ●DeepSeek-R1 训练配方 DeepSeek-R1 遵循这一通用配方。第一步的详细信息来自之前关于 DeepSeek-V3 模型的论文。 但使创建这个模型成为可能的是之前创建一个名为 DeepSeek-R1-Zero 的早期模型的实验。 R1-Zero 的特殊之处在于它能够在没有标注的 SFT 训练集的情况下在推理任务上表现出色。 冷启动:与 DeepSeek-R1-Zero 不同,为了防止从基础模型开始的 RL 训练的早期不稳定冷启动阶段,对于 DeepSeek-R1,我们构建并收集了一小部分长推理链数据,以微调模型作为初始 RL 》 至此,你应该已经掌握了围绕 DeepSeek-R1 模型的主要训练方法

    1.5K20编辑于 2025-02-07
  • 来自专栏《Cloud Studio》

    CloudStudio 公开课-DeepSeek R1 模型训练与优化实战

    R1 模型训练与优化实战》,这套教程系统解析了DeepSeek R1推理模型的多阶段强化学习与监督微调技术框架,适合AI开发者和研究者掌握前沿大模型训练范式,实现复杂任务场景下的模型性能突破与低成本高效部署 第一章:环境设置与数据准备1.1 课程介绍1.2 环境配置1.3 训练数据集选择第二章:模型架构与训练框架2.1 DeepSeek R1 训练快速概述2.2 选择基本模型2.3 RL 策略模型(R)第三章 5.7 保存我们的小小R1模型第六章:SFT 阶段2与后续优化6.1 以推理为导向的强化学习6.2 拒绝采样6.3 SFT 阶段2后续训练6.4 模型蒸馏如何使用 CloudStudio 公开课第一步进入 cloudstudio.net ——【学习中心】——【DeepSeek R1 模型训练与优化实战】第二步点击章节进入学习第三步进入具体章节,例如【1.3 训练数据集选择】章节。 可以系统化地利用 DeepSeek R1 模型实现从模型优化到实际落地的完整闭环。可生成数十万 10 万条营销文案、可提供稳定的高并发实时 API 服务。心动吗?还等啥呢?!快来体验吧!!

    33810编辑于 2025-03-11
  • 来自专栏开发经验

    DeepSeek本地部署+微调训练

    本地训练流程(无需专业知识),从数据准备到模型部署的完整操作指南:一、准备训练数据1. 启动训练在命令行执行(根据显存调整参数):accelerate launch train_deepseek.py \ --model_name "deepseek-ai/deepseek-llm-7b 建议首次训练先用100条数据测试流程,成功后再扩大数据量。训练方案属于在原有DeepSeek-R1基础上的微调(Fine-tuning),而不是从头创建新模型。 安全回滚方案如果训练效果不好,只需:rm ~/.ollama/models/deepseek-custom.gguf # 删除微调模型ollama run deepseek-r1 # 立即恢复原始版本四、商业合规提醒模型版权:微调后的模型仍需遵守DeepSeek的使用协议数据安全:建议训练数据去除敏感信息,可通过命令检查:grep -r "身份证号|手机号" .

    3.6K23编辑于 2025-02-25
  • 来自专栏MySQL解决方案工程师

    模型训练

    与提示相反,在训练的过程中,我们实际上要修改模型的参数。 可以简单的理解为,训练是为模型提供输入的过程,模型猜测出一个对应的输出,然后基于这个输出答案,我们更改模型的参数,令下一次的输出更加接近正确的答案。 模型训练是改变词汇分布的一个更重要的方法,从零开始训练一个模型需要耗费大量的成本,对于一般用户来说是不可能完成的任务。 用户通常会使用一个已经在大规模数据上训练好的预训练模型进行进一步训练,这个预训练模型可能是在一个通用任务或数据集上训练得到的,具有对一般特征和模式的学习能力。 训练成本 模型训练需要耗费硬件成本,最后给出一个基于OCI的不同训练方法的硬件成本。

    80010编辑于 2024-06-14
  • 来自专栏算法一只狗

    DeepSeek V3把训练模型的成本给干下来了

    一夜之间,DeepSeek突然之间炸场,各个大佬都在纷纷转发,而且发布即开源,直接用50多页的论文公布了其训练细节简单来说,DeepSeek V3是个拥有671B参数的MoE模型,每个token可以激活 原生就是FP8混合精度训练框架,并首次验证其在超大规模模型上的有效性训练模型也可以很省钱DeepSeek V3延续了便宜又快的训练思路。 用训练一个模型所花费的钱来说,训练一个DeepSeek V3只需要花费557.6万美元,相比之下,一个简单的7B Llama 3模型则需要花费76万美元。 比起动辄几百亿人民币都训练不出来一个好用的大模型DeepSeek V3的训练简直颠覆了大家的想象。 其他像GPT-4o、Claude3.5等模型,价格都比较昂贵。模型的一些训练细节DeepSeek V3除了使用了FP8之外,还有一些其他的模型细节。

    6.3K20编辑于 2024-12-29
  • 来自专栏C++领域相关博客

    AI语言模型的技术之争:DeepSeek与ChatGPT的架构与训练揭秘

    第一章:DeepSeek与ChatGPT的基础概述 1.1 DeepSeek简介 DeepSeek是由中国初创公司DeepSeek所开发的一款大型语言模型DeepSeek训练方法:DeepSeek同样使用了预训练与微调的训练策略,但它特别注重推理任务的训练DeepSeekDeepSeek模型训练中采用了知识蒸馏技术,这一技术帮助模型从多个子模型中提取并融合知识,从而加速了训练过程,并且在一些特定任务上表现得更加高效。 第五章:代码实现:DeepSeek与ChatGPT的代码对比与实现 我们将从两个方面展示代码: 模型的加载与推理: 如何加载预训练模型并使用其进行推理。 第六章:总结与展望 6.1 主要区别总结 通过本篇文章的分析,我们可以看到DeepSeek与ChatGPT在模型架构、训练方法以及应用场景方面有诸多差异。

    1.8K20编辑于 2025-02-13
  • 来自专栏全栈程序员必看

    训练模型还要训练吗_多模态预训练模型

    若使用已保存好的镜像reid_mgn:v1,在本机上可按如下操作训练 # 1.进入已保存环境的镜像(reid_mgn:v1(8.48G)、pytorch/pytorch:1.0.1-cuda10.0 personReID ufoym/deepo:testv1 /bin/bash (75服务器) # 2.进入到工程目录 cd /home/personReID/MGN-pytorch-master # 3.复制预训练模型到指定路径 打开另一个终端 docker ps 查看容器内镜像(找到reid_mgn:v1 前对应的数字字符串%%%%) docker stats %%%%% 实时监测内存情况 # 4.训练 (在原终端继续进行,注:demo.sh是已改好参数的) sh demo1.sh 补充: 训练前需要修改的文件及代码 1.demo.sh文件 修改data路径(把你的数据集路径添加到 –datadir)、 :需将数据集文件名由原始的Market-1501-****改为和代码匹配的Market1501 2.trainer.py 修改train、test中的epoch 3.main.py 如果是单GPU训练

    95420编辑于 2022-11-08
  • 来自专栏AgenticAI

    刚刚DeepSeek开源新模型DeepSeek-OCR

    就在3个小时前,DeepSeek突然在HuggingFace上传新模型DeepSeek-OCR,一个只有3B大小的文档解析新模型,该模型的目标是探索视觉文本压缩的边界。 在生产环境中,DeepSeek-OCR能够以单个A100-40G GPU的计算能力,每天生成 200k+ 页的训练数据,供大语言模型或视觉语言模型使用。 该模型是一个以LLM视角探索研究视觉编码器作用的模型,性能强悍,编辑距离越小越好,看起来和dots.ocr不相上下。 深感数据量不够,于是顺手训练了一个自己的文档解析模型来扩充自己的数据? 模型地址:https://huggingface.co/deepseek-ai/DeepSeek-OCR

    38610编辑于 2025-11-29
  • 来自专栏自然语言处理

    图解DeepSeek R1训练流程

    提高模型的可读性和泛化能力 通过引入冷启动数据和多阶段训练流程,提升模型的可读性和语言混合问题。 小型模型的推理能力提升 通过知识蒸馏技术,将大型模型的推理能力迁移到小型模型,以提高效率。 引入DeepSeek-R1-Zero模型 无监督强化学习(RL): 不依赖SFT,展示出色推理能力。 自进化: 训练过程中自然发展推理行为,如自我验证、反思、长CoT推理链。 2. 引入DeepSeek-R1模型 多阶段训练 & 冷启动数据: 解决DeepSeek-R1-Zero的可读性和语言混合问题。 冷启动数据收集: 通过少量提示和模型自生成答案,微调DeepSeek-V3-Base模型作为RL起点。 3. 奖励建模 准确性奖励和格式奖励: 采用基于规则的奖励系统,训练模型生成特定格式的推理过程和最终答案。 5. 训练模板 推理过程和答案的模板: 训练模型首先生成推理过程,然后生成最终答案。 6.

    64110编辑于 2025-02-08
  • 来自专栏人工智能

    DeepSeek 主要模型介绍

    前言DeepSeek 系列模型涵盖了从通用语言模型到特定领域应用的模型。每一代模型设计的特点都不一样。本文将介绍 DeepSeek 系列的主要模型及其特点。准备好了吗? DeepSeek-R1DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。 中文场景深度优化基于高质量中文数据集(如 Wudao Corpus)强化训练,在中文文本生成、语义理解任务中表现领先。 DeepSeek-CoderDeepSeek-Coder 是一个高性能的代码生成模型,旨在提升软件开发过程中的自动化程度和效率。 DeepSeek-V3DeepSeek-V3 是深度求索公司推出的第三代大规模混合专家(MoE),是当前语言模型领域的顶尖代表之一。

    1.2K75编辑于 2025-03-27
  • 来自专栏大语言模型

    DeepSeek-R1技术突破:纯RL训练竟能激发大模型反思能力?

    2025年初,DeepSeek团队发布的R1模型带来了一项令人惊讶的发现:仅通过强化学习(RL)训练,无需监督微调(SFT),就能让大模型自发产生带有反思的思维链(long CoT)。 这一发现颠覆了此前行业对模型训练范式的认知。 这种认知源于一个基本假设:模型无法自发产生复杂思维链,必须通过显式引导。然而,DeepSeek-R1-Zero的实验结果打破了这一假设。 研究团队仅通过以下简单设置:就观察到了模型行为的惊人进化:随着训练步数增加,回答长度自然增长在某个训练阶段自发出现自我评估行为无需人工标注数据,就能产生结构化推理过程DeepSeek-R1的双阶段训练策略基于 :训练效率提升:相比传统方法减少了对海量标注数据的依赖成本降低:规则奖励系统比训练神经网络RM更经济能力涌现:证明了模型可以通过RL自发发展出高级推理能力目前,DeepSeek-R1在多项基准测试中表现优异

    31610编辑于 2025-07-10
领券