首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏GiantPandaCV

    DeepSpeed 教程翻译】三,在 DeepSpeed中使用 PyTorch Profiler和Flops Profiler

    DeepSpeed Flops Profiler可以与DeepSpeed运行时一起使用,并无需任何用户代码更改,也可以独立于DeepSpeed作为一个独立的包使用。 在使用DeepSpeed进行模型训练时,可以在DeepSpeed配置文件(https://www.deepspeed.ai/docs/config-json/#flops-profiler)中启用分析器 和DeepSpeed运行时一起使用 当使用 DeepSpeed 进行模型训练时,可以在 deepspeed 配置文件中配置分析器。使用分析器不需要明确的 API 调用。 仓库,然后在训练模型时将DeepSpeed的config文件配置DeepSpeed Profiler。 你只需要简单地安装 DeepSpeed 并导入 flops_profiler 包来直接使用 API。关于如何安装 DeepSpeed,请参考 DeepSpeed 的安装指南。

    2.2K30编辑于 2023-08-22
  • deepspeed安装和测试代码

    deepspeed官方对linux系统支持非常好,安装流程较为简单,推荐使用linux系统使用deepspeed.deepspeed由于要使用大模型进行训练和推理,建议显存>=24GB。 因此只能适合简单学习,本人使用deepspeed是0.12.7版本进行源码编译,测试发现deepspeed-mii无法正常使用,但是有些模型是可以用的,下面代码测试通过 import os import deepspeed import torch from transformers import pipeline local_rank = int(os.getenv('LOCAL_RANK', ' torch.float, replace_with_kernel_inject=True) string = generator("DeepSpeed torch.distributed.is_initialized() or torch.distributed.get_rank() == 0: print(string) 目测上面模型10GB,太大了,普通显卡根本无法玩起来 只能说deepspeed

    36110编辑于 2025-07-20
  • 来自专栏AI算法能力提高班

    DeepSpeed大模型分布式训练

    DeepSpeed DeepSpeed is a deep learning optimization library that makes distributed training and inference Innovation pillars img Training Argument Parsing 将argparse变成deepspeed parser parser = deepspeed.add_config_arguments (parser) 样例 import argparse import deepspeed def add_argument(): parser=argparse.ArgumentParser () return args Initialization 必须把args, model结构和参数变成deepspeed版本 对于dataloder可以用deepspeed.initialize deepspeed.py --deepspeed --deepspeed_config ds_config.json Inference Inference API deepspeed.init_inference

    1.2K30编辑于 2023-09-13
  • 来自专栏AutoML(自动机器学习)

    LLM 学习笔记-Deepspeed-MoE 论文

    论文 DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale Deepspeed-MoE针对上述挑战做了下面的改进: 把 MoE 的任务扩展到了各种自回归的 NLG 任务 提出 PR-MoE 来减少 MoE 参数 设计了 Deepspeed-MoE 推理系统,减少 按照原论文的说法,deepspeed-moe 支持这样的并行方式: “a PR-MoE model running on 128 GPUs, with 32, 64, and 128 experts at Deepspeed-MoE 的优化思路是下面 3 条: 支持各种并行策略混合,而且把路径相同的 token 打包一起做推理,这样每次就只需要激活一个路径了,即单个 dense 模型的开销。

    2K10编辑于 2023-12-08
  • 来自专栏自然语言处理

    推荐两个工具:DeepSpeed-FastGen和DataTrove

    DeepSpeed-FastGen 通过 MII 和 DeepSpeed-Inference 加速LLM生成文本 仓库地址:https://github.com/microsoft/DeepSpeed /tree/master/blogs/deepspeed-fastgen GPT-4 和 LLaMA 等大型语言模型 (LLM) 已成为服务于各个级别的人工智能应用程序的主要工作负载。 随着越来越多的模型(如MPT-StoryWriter)和系统(如DeepSpeed Ulysses)支持扩展到数万个令牌的上下文窗口,这些长提示工作负载变得越来越重要。 DeepSpeed官方推出 DeepSpeed-FastGen,该系统通过利用所提出的动态 SplitFuse 技术克服了这些限制,与 vLLM 等最先进的系统相比,有效吞吐量提高了 2.3 倍。 DeepSpeed-FastGen 利用 DeepSpeed-MII 和 DeepSpeed-Inference 的组合来提供易于使用的服务系统。

    96910编辑于 2024-01-21
  • 使用DeepSpeed进行大模型推理加速的指南

    DeepSpeed是一个开源工具库,旨在通过系统优化和压缩技术加速大规模模型的推理和训练过程。 DeepSpeed的核心功能DeepSpeed提供了一系列优化技术,主要包括:分布式训练:支持多个计算设备协同工作,提高训练速度。梯度压缩:减少通信开销,加速训练过程。 初始化DeepSpeed推理引擎# 配置DeepSpeed参数ds_config = { "train_batch_size": 1, "fp16": { "enabled": 启动训练使用DeepSpeed命令行工具启动训练过程。 deepspeed --num_gpus=2 train.py --deepspeed ds_config.jsonDeepSpeed支持检查点功能,可以在训练过程中定期保存模型状态,以便后续恢复。

    3.1K21编辑于 2025-01-03
  • 来自专栏GiantPandaCV

    DeepSpeed-Chat 打造类ChatGPT全流程 笔记一

    前言 之前翻译了几篇DeepSpeed的教程,也使用Megatron-DeepSpeed走通了GPT2模型的训练和推理流程。 这篇文章想记录一下复现DeepSpeed前段时间给出的DeepSpeed-Chat例子,训练一个经过监督指令微调和RLHF之后的对话模型。 上面对DeepSpeed-Chat的功能以及BenchMark的细节做了介绍,接下来就跟着DeepSpeed-Chat源码里提供的教程来一步步复现模型,先从DeepSpeed-Chat的教程翻译开始。 /tree/master/applications/DeepSpeed-Chat 这个教程的时候尝试按照教程提供的方法一步步复现 DeepSpeed-Chat。 在这里插入图片描述 什么是DeepSpeed-Chat 在推广ChatGPT风格模型及其能力的精神下,DeepSpeed自豪地推出了一个通用系统框架,名为DeepSpeed Chat,以实现ChatGPT-like

    1.7K30编辑于 2023-08-22
  • DeepSpeed分布式训练框架深度学习指南

    DeepSpeed通过优化通信机制、减少通信量和使用高效的通信库来降低通信开销。此外,DeepSpeed还通过动态通信调度来进一步减少通信延迟和开销。 五、DeepSpeed的功能点和使用方法5.1DeepSpeed的功能点DeepSpeed是一个由微软开发的深度学习优化库,旨在加速大规模模型的训练和推理。 六、DeepSpeed的使用方法要使用DeepSpeed进行分布式训练,你需要按照以下步骤进行操作:6.1安装DeepSpeed你可以通过pip安装DeepSpeed:bash复制代码pip install 6.3编写训练脚本在你的训练脚本中,使用DeepSpeed提供的分布式训练API。创建一个DeepSpeed引擎实例,并将模型、优化器和数据加载器传递给它。 使用DeepSpeed引擎进行前向传播、反向传播和优化器更新。6.4配置DeepSpeed通过JSON配置文件或直接在代码中配置DeepSpeed的参数,如ZeRO阶段、混合精度训练选项、通信策略等。

    2.3K21编辑于 2024-11-07
  • 来自专栏存储公众号:王知鱼

    DeepSpeed 如何从存储层优化推理性能?

    ZeRO (零冗余优化器) 介绍 ZeRO(Zero Redundancy Optimizer) 是由微软的DeepSpeed团队提出的一项技术,旨在优化大规模深度学习模型训练,特别是在处理非常大的模型时 DeepSpeed MSFT ZeRO推理与训练的对比 在推理过程中,通过将模型参数卸载到NVMe存储并将KV缓存卸载到CPU内存,可以减轻GPU负担,从而提高推理效率,尤其是在处理大规模模型时。 更多关于微软 DeepSpeed 技术的报道,可参考: Micron:SSD替换主存,加速AI落地 推理场景应用 在线推理通常要求低延迟,关键指标是首次响应时间和总延迟,适用于需要实时反馈的应用,如聊天机器人

    1.1K10编辑于 2025-02-11
  • 谈谈分布式训练框架DeepSpeed与Megatron

    为了应对这种需求,分布式训练框架应运而生,其中DeepSpeed和Megatron是两个备受瞩目的框架。 优缺点DeepSpeed:优点:高效的数据并行:DeepSpeed在数据并行方面表现出色,特别是其Zero系列的分布式数据并行方案,能够显著降低内存占用,提高训练速度。 缺点:学习曲线较陡:DeepSpeed的功能较为丰富,但对于新用户来说,学习曲线可能较陡。 功能多样性不足:相比DeepSpeed,Megatron在数据并行和内存优化方面的功能较少。主要功能DeepSpeed:混合精度训练:支持FP16和FP32混合精度训练,减少内存占用和计算时间。 学习网站对于想要深入了解DeepSpeed和Megatron的开发者来说,以下是一些常用的学习网站和资源:DeepSpeed官方网站:https://www.deepspeed.ai/Megatron

    5.1K21编辑于 2024-11-03
  • 来自专栏GiantPandaCV

    DeepSpeed 教程翻译】开始,安装细节和CIFAR-10 Tutorial

    除了包装模型外,DeepSpeed还可以基于传递给deepspeed.initialize和DeepSpeed配置文件(https://www.deepspeed.ai/getting-started/ 当不使用DeepSpeed的学习率调度器时: 如果调度期望在每次训练步骤都执行, 那么用户可以在初始化 DeepSpeed 引擎时将调度器传递给 deepspeed.initialize, 让 DeepSpeed 训练 DeepSpeed 安装了入口点 deepspeed 以启动分布式训练。 使能 DeepSpeed 参数解析 使能 DeepSpeed 的第一步是向 CIFAR-10 模型添加 DeepSpeed 参数,可以使用以下方式的 deepspeed.add_config_arguments deepspeed cifar10_deepspeed.py --deepspeed_config ds_config.json DeepSpeed 通常会打印更多的训练细节供用户监视,包括训练设置、

    5.5K20编辑于 2023-08-22
  • 优化DeepSpeed ZeRO在低成本硬件上的运行效率

    微软DeepSpeed库提出的零冗余优化器(ZeRO)技术通过分区模型状态解决了这一问题,但其理想性能仅在配备高速InfiniBand的专用超算集群上实现。 这些改进已并入DeepSpeed代码库,显著降低了大规模语言模型的训练硬件门槛。

    25310编辑于 2025-08-11
  • 来自专栏GiantPandaCV

    DeepSpeed结合Megatron-LM训练GPT2模型笔记(上)

    None deepspeed .................... False deepspeed_config ............. None deepspeed .................... False deepspeed_config ............. 参数,因为要使用上DeepSpeed还需要执行deepspeed的config配置文件。 None deepspeed .................... False deepspeed_config ............. 总结 文章比较长,关于使用DeepSpeed配合Megatron进行训练放在下篇笔记里面探索吧。

    2.8K80编辑于 2023-08-22
  • 来自专栏自然语言处理

    DeepSpeed-Chat:最强ChatGPT训练框架,一键完成RLHF训练!

    1 什么是 DeepSpeed Chat 本着使 ChatGPT 式模型及其功能民主化的精神,DeepSpeed 自豪地推出了一个通用系统框架,用于为类 ChatGPT 模型提供端到端的培训体验 ,名为 DeepSpeed Chat。 它建立在用户最喜欢的 DeepSpeed 框架功能之上,例如 ZeRO 技术和 DeepSpeed-Inference; Easy-breezy Training Experience:单个脚本能够采用预训练的 3 ☕ 快速上手 ☕ 3.1 Installation git clone https://github.com/microsoft/DeepSpeed.git cd DeepSpeed pip install 使用DeepSpeed聊天,用户可以轻松做到这一点。

    1.3K30编辑于 2023-08-25
  • 来自专栏福大大架构师每日一题

    DeepSpeed v0.18.2 更新详情:性能优化与功能增强全面解析

    DeepSpeed v0.18.2 于 2025年11月6日 正式发布,本次补丁版本在多项核心模块进行了优化与 Bug 修复,减少训练过程中的冗余计算与内存开销,并对文档进行了更直观的调整,提升开发者使用体验 • 优化了架构描述,使“DeepSpeed 的四大创新支柱”结构更清晰: 1. DeepSpeed-Training 2. DeepSpeed-Inference 3. DeepSpeed-Compression 4. DeepSpeed4Science 2. 五、结语 DeepSpeed v0.18.2 尽管是一次补丁版本,但涵盖了从内存优化到 API 改进再到文档修复的全面优化,特别是在 Ulysses Sequence Parallelism 与 ZeRO

    24310编辑于 2025-12-19
  • 来自专栏AutoML(自动机器学习)

    安装TensorNVMe和Deepspeed时遇到的坑:无root权限安装libaio依赖库

    libaio.so.1 |__libaio.so.1.0.2 将文件加入环境变量路径 之前我一直是将路径加入到PATH和LD_LIBRARY_PATH这两个变量中去,但是死活安装不上TensorNVMe和Deepspeed 安装TensorNVMe和Deepspeed 安装Deepspeed git clone https://github.com/microsoft/DeepSpeed.git cd DeepSpeed

    2.9K50编辑于 2023-03-24
  • 来自专栏DeepHub IMBA

    DeepSpeed-MoE:训练更大及更复杂的混合专家网络

    DeepSpeed-MoE DeepSpeed主要只在MT-NLG 530B等Transformer上进行研究,之前没有在MoE上进行研究。 结果 随着gpu数量的增加,DeepSpeed-MoE和PyTorch都减少了推理延迟,但PyTorch比DeepSpeed-MoE慢得多。 DeepSpeed-MoE实现了7.3倍的延迟减少,同时实现了高达7.3倍的高吞吐量。 DeepSpeed-MoE可以减少执行推理所需的gpu的最小数量,并且可以进一步提高延迟和吞吐量。 总结 最后我们来总结一下论文的要点: DeepSpeed是一个用于训练大规模神经网络的系统,可以实现模型并行训练。 DeepSpeed+MoE的组合利用了两者的优势: DeepSpeed实现了高效的模型并行,可以训练数十亿参数的模型。将模型切分到不同的GPU上进行并行训练。

    1.2K20编辑于 2023-08-30
  • 来自专栏福大大架构师每日一题

    DeepSpeed v0.17.1版本更新详解:性能优化与文档完善

    近日,深度学习加速库DeepSpeed发布了v0.17.1补丁版本。本次更新主要涵盖了版本修正、文档完善、性能优化及若干bug修复,旨在提升用户体验和系统的稳定性。 版本介绍 DeepSpeed作为一个高效的分布式深度学习训练库,致力于提升模型训练速度和显存利用率。 这些改进显著降低了入门门槛,促进了DeepSpeed社区的活跃度和贡献度。 4. 这些改动进一步提升了DeepSpeed训练流程的简洁性和可维护性。 7. 这体现了DeepSpeed开发团队对质量保障的高度重视。 8. 结语与升级建议 DeepSpeed v0.17.1补丁版本通过此次多方面的改进与修复,进一步增强了项目稳定性和用户体验。

    32410编辑于 2025-06-19
  • 来自专栏机器之心

    微软开源DeepSpeed Chat,人人可快速训练百亿、千亿级ChatGPT大模型

    链接:https://github.com/microsoft/DeepSpeed/tree/master/blogs/deepspeed-chat 本文对开源的 DeepSpeed Chat 进行了详细的介绍 (iii)DeepSpeed-RLHF 系统:我们将 DeepSpeed 的训练(training engine)和推理能力(inference engine) 整合到一个统一的混合引擎(DeepSpeed DeepSpeed RLHF 通过 Hybrid Engine 实现无与伦比的规模和效率 回顾 如前所述,DeepSpeed-HE 是一个将强大的用于推理和训练的结合系统,旨在使 DeepSpeed-RLHF DeepSpeed-Chat 是更大的 DeepSpeed 生态系统的一部分,包括众多深度学习系统和建模技术。 你还可以关注我们的英文 Twitter(DeepSpeed) 和日文 Twitter(マイクロソフト DeepSpeed),了解 DeepSpeed 的最新动态。 DeepSpeed 欢迎你的贡献!

    48920编辑于 2023-04-21
  • 来自专栏科技前沿

    微软开源DeepSpeed Chat,来训练一个自己的专属ChatGPT吧!

    (开源地址:https://github.com/microsoft/DeepSpeed)  据悉,Deep Speed Chat是基于微软Deep Speed深度学习优化库开发而成,具备训练、强化推理等功能 图片 Deep Speed-RLHF 模块: DeepSpeed-RLHF 复刻了InstructGPT 论文中的训练模式,并确保包括:a) 监督微调(SFT),b) 奖励模型微调和 c) 基于人类反馈的强化学习 图片 DeepSpeed-RLHF 系统: 将DeepSpeed的训练和推理能力整合到统一的混合引擎(DeepSpeed Hybrid Engine or DeepSpeed-HE)中用于RLHF 训练 DeepSpeed-HE 能够在RLHF中无缝地在推理和训练模式之间切换,使其能够利用来自 DeepSpeed-Inference 的各种优化。 DeepSpeed-HE可以自动在 RLHF 的不同阶段进行智能的内存管理和数据缓存。 此外,Deep Speed Chat在成本、效率、扩展性等方面非常优秀。

    1.1K01编辑于 2023-04-13
领券