首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏罗西的思考

    并行分布式框架 Celery 之架构 (2)

    [源码解析] 并行分布式框架 Celery 之架构 (2) 0x00 摘要 Celery是一个简单、灵活且可靠的,处理大量消息的分布式系统,专注于实时处理的异步任务队列,同时也支持任务调度。 上文 [源码解析] 并行分布式框架 Celery 之架构 (1) 中,我们大致介绍了 Celery 的概念,用途和架构,现在回忆 Celery 的架构图如下: +-----------+ 对于 Consumer 来说, 1 是基本功能,这些功能组成了一个简单的非强壮的消息队列框架; 2 一般重要,可以实现一个高级一点的功能; 3 属于附加功能,同时也属于一点分布式的功能。 有些人可能会担心,分块处理会导致并行性能下降,实际上,由于避免了消息传递的开销,因此反而会大大的提高性能。 我们从负载均衡,容灾恢复,worke之间交互这三个角度来看看 Celery 如何实现分布式

    1.2K10发布于 2021-04-01
  • 来自专栏罗西的思考

    并行分布式框架 Celery 之 worker 启动 (2)

    [源码解析] 并行分布式框架 Celery 之 worker 启动 (2) 目录 [源码解析] 并行分布式框架 Celery 之 worker 启动 (2) 0x00 摘要 0x01 前文回顾 0x2 逐次调用step 3.2.4.1 Hub 3.2.4.2 Pool 3.2.4.3 Consumer 0x4 本文总结 0xFF 参考 0x00 摘要 Celery是一个简单、灵活且可靠的,处理大量消息的分布式系统 Kombu 之 Consumer [源码分析] 消息队列 Kombu 之 Producer [源码分析] 消息队列 Kombu 之 启动过程 [源码解析] 消息队列 Kombu 之 基本架构 以及 源码解析 并行分布式框架 Celery 之架构 (2) [源码解析] 并行分布式框架 Celery 之架构 (2) [源码解析] 并行分布式框架 Celery 之 worker 启动 (1) 0x01 前文回顾 前文提到了,我们经过一系列过程 结构为{step1:[step2,step3]}。

    1.6K20发布于 2021-04-07
  • 来自专栏罗西的思考

    模型并行分布式训练Megatron (2) --- 整体架构

    [源码解析] 模型并行分布式训练Megatron (2) --- 整体架构 目录 [源码解析] 模型并行分布式训练Megatron (2) --- 整体架构 0x00 摘要 0x01 启动 1.1 分布式启动 ,用来训练超大Transformer语言模型,其通过综合应用了数据并行,Tensor并行和Pipeline并行来复现 GPT3,值得我们深入分析其背后机理。 本系列其他文章为: [源码解析] 模型并行分布式训练Megatron (1) --- 论文 & 基础 0x01 启动 1.1 分布式启动 启动脚本在 examples/pretrain_bert_distributed.sh 注意,数据并行是把不同数据加载到不同的rank之上,而 Tensor模型并行组之中每个rank都加载同样数据。 假如数据并行度数为2,则例子为[g0, g2], [g1, g3], [g4, g6], [g5, g7], [g8, g10], [g9, g11], [g12, g14], [g13, g15]。

    3.5K20编辑于 2022-05-09
  • 来自专栏罗西的思考

    PyTorch分布式优化器(2)----数据并行优化器

    [源码解析] PyTorch分布式优化器(2)----数据并行优化器 目录 [源码解析] PyTorch分布式优化器(2)----数据并行优化器 0x00 摘要 0x01 前文回顾 0x02 DP 之中的优化器 ,分为三篇文章,分别是基石篇,DP/DDP/Horovod 之中数据并行的优化器,PyTorch 分布式优化器,按照深度递进。 PyTorch分布式其他文章如下: 深度学习利器之自动微分(1) 深度学习利器之自动微分(2) [源码解析]深度学习利器之自动微分(3) --- 示例解读 [源码解析]PyTorch如何实现前向传播(1 如何实现后向传播 (4)---- 具体算法 [源码解析] PyTorch 分布式(1)------历史和概述 [源码解析] PyTorch 分布式(2) ----- DataParallel(上) [ 反向传播 [源码解析] PyTorch 分布式 Autograd (1) ---- 设计 [源码解析] PyTorch 分布式 Autograd (2) ---- RPC基础 [源码解析] PyTorch

    1.3K30编辑于 2021-12-09
  • 来自专栏罗西的思考

    模型并行分布式训练 Megatron (3) ---模型并行实现

    [源码解析] 模型并行分布式训练 Megatron (3) ---模型并行实现 目录 [源码解析] 模型并行分布式训练 Megatron (3) ---模型并行实现 0x00 摘要 0x01 并行Transformer 6.2 共轭函数 0xFF 参考 0x00 摘要 NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架,用来训练超大Transformer语言模型,其通过综合应用了数据并行,Tensor 并行和Pipeline并行来复现 GPT3,值得我们深入分析其背后机理。 本系列其他文章为: [源码解析] 模型并行分布式训练Megatron (1) --- 论文 & 基础 [源码解析] 模型并行分布式训练Megatron (2) --- 整体架构 0x01 并行Transformer 因为对于第二行来说,其输入Y其实本质是 XA1,XA2并行的,所以为了降低通信量,我们可以把数据通信延后或者干脆取消通信,就是把第一行最后的 all_gather 和第二行最初的 split 省略掉,这其实就是数学上的传递性和结合律

    2.9K20编辑于 2022-11-28
  • 来自专栏罗西的思考

    模型并行分布式训练 Megatron (4) --- 如何设置各种并行

    [源码解析] 模型并行分布式训练 Megatron (4) --- 如何设置各种并行 目录 [源码解析] 模型并行分布式训练 Megatron (4) --- 如何设置各种并行 0x00 摘要 0x01 本系列其他文章为: [源码解析] 模型并行分布式训练Megatron (1) --- 论文 & 基础 [源码解析] 模型并行分布式训练Megatron (2) --- 整体架构 [源码解析] 模型并行分布式训练 假如数据并行度数为2,则例子为[g0, g2], [g1, g3], [g4, g6], [g5, g7], [g8, g10], [g9, g11], [g12, g14], [g13, g15]。 就是2个 GPUs 来进行模型张量并行。 对应注释例子,就是data_parallel_size = 16 / (2 * 4) = 2。 rank 2 对应的数据并行进程组是[g0, g2]。

    3.1K10编辑于 2022-05-09
  • 来自专栏机器之心

    分布式训练中数据并行远远不够,「模型并行+数据并行」才是王道

    来自加州大学洛杉矶分校和英伟达的研究人员探索了混合并行化方法,即结合数据并行化和模型并行化,解决 DP 的缺陷,实现更好的加速。 图 2:不同的训练并行化策略,2(a) 展示了数据并行化训练,2(b) 展示了模型并行化训练。 该研究发现,在规模较大的情况下,混合训练在最小化端到端训练时间方面比仅使用 DP 更加高效。 表 1:MP 分割策略和在 2 个 GPU 上实施分割策略时获得的加速。 值得注意的是,在 2 个 GPU 的设置下,真实实验获得的加速(1.32 倍)与在三或四个 GPU 上获得的加速几乎一样。 其原因在于该网络可进行的并行化有限,DLPlacer 在 2 个 GPU 的情况下几乎完全穷尽了并行化。 ?

    1.4K20发布于 2019-09-03
  • 来自专栏CreateAMind

    分布式并行架构Ray介绍

    machine to achieve efficient multiprocessing, and it can be used on a cluster for large computations. 2.

    2.1K20发布于 2019-08-13
  • 来自专栏Michael阿明学习之路

    python 并发、并行处理、分布式处理

    并行编程 线程 进程 使用多个进程 接口 Executor ,ProcessPoolExecutor 5. 锁 6. 分布式处理 dask pyspark mpi4py 科学计算 7. "https://www.csdn.net"])) # 不会并行获取 "https://www.csdn.net"])) # 会并行但受制于 并行编程 问题是独立的,或者高度独立的,可以使用多核进行计算 如果子问题之间需要共享数据,实现起来不那么容器,有进程间通信开销的问题 线程 以共享内存方式实现并行的一种常见方式是 线程 由于 python 分布式处理 dask https://www.dask.org/ pyspark 用户提交任务,集群管理器自动将任务分派给空闲的执行器 mpi4py 科学计算 https://pypi.org/project

    2.3K20编辑于 2022-09-22
  • 来自专栏罗西的思考

    PyTorch 分布式(18) --- 使用 RPC 的分布式管道并行

    [源码解析] PyTorch 分布式(18) --- 使用 RPC 的分布式管道并行 目录 [源码解析] PyTorch 分布式(18) --- 使用 RPC 的分布式管道并行 0x00 摘要 0x01 分布式优化器(2)----数据并行优化器 [源码解析] PyTorch分布式优化器(3)---- 模型并行 [源码解析] PyTorch 分布式(14) --使用 Distributed Autograd 0x01 综述 1.1 先决条件 本教程使用 Resnet50 模型来演示使用torch.distributed.rpc API实现分布式管道并行。 这可以看作是单机模型并行最佳实践中讨论的多 GPU 流水线并行分布式对应版本。 1.2 基础知识 之前的教程分布式 RPC 框架入门 展示了如何使用torch.distributed.rpc 为 RNN 模型实现分布式模型并行

    1K40编辑于 2021-12-21
  • 来自专栏罗西的思考

    PyTorch分布式优化器(3)---- 模型并行

    [源码解析] PyTorch分布式优化器(3)---- 模型并行 目录 [源码解析] PyTorch分布式优化器(3)---- 模型并行 0x00 摘要 0x01 前文回顾 0x02 单机模型 2.1 本文介绍PyTorch 分布式优化器和PipeDream之中的优化器,主要涉及模型并行(流水线并行)。 于是人们引入了模型并行(model parallel)。 与此对应,优化器也需要做不同的修改以适应模型并行的需求。为了更好的分析,本文首先介绍单机模型并行,然后介绍PyTorch分布式优化器。 模型并行被广泛用于分布式训练。 0x03 分布式问题和方案 我们已经了解了单机之上的模型并行,接下来就要看模型跨越多个服务器的分布式模型并行训练。 3.1 思路 我们先设想一下如果自己实现分布式优化器,应该如何处理。

    1.8K40编辑于 2021-12-10
  • 来自专栏罗西的思考

    并行分布式框架 Celery 之架构 (1)

    [源码解析] 并行分布式框架 Celery 之架构 (1) 目录 [源码解析] 并行分布式框架 Celery 之架构 (1) 0x00 摘要 0x01 Celery 简介 1.1 什么是 Celery 0x02 Celery的架构 Celery 的基本逻辑为:分布式异步消息任务队列。 在 Celery 中,采用的是分布式的管理方式,每个节点之间都是通过广播/单播进行通信,从而达到协同效果。 {1: <bound method AMQP.as_task_v1 of <celery.app.amqp.AMQP object at 0x00000252BDC74148>>, 2: <bound method AMQP.as_task_v2 of <celery.app.amqp.AMQP object at 0x00000252BDC74148>>} _event_dispatcher 0xFF 参考 Nginx资料之Master与Worker基础概念 1: Worker 启动流程概述 2: Worker 的执行引擎 3: Task 对象的实现 4: 定时任务的实现 5: 远程控制管理

    1.1K20编辑于 2022-05-09
  • 来自专栏AI前沿技术

    大模型分布式训练 —— 张量并行TP

    本文:1)首先介绍张量并行矩阵分块,按行和按列两种方式,2)接着图解MLP和self-attention的分块原理,以及对应的通信量,3)最后介绍编码层和损失层的分块和通信优化。 1,矩阵分块计算 假设:有矩阵X和矩阵Y,维度分别为[2,4]和[4,2],两个矩阵相乘得到一个矩阵Z维度为[2,3],如下图。 如果使用矩阵分块运算,对于参数矩阵Y,有两种的切分方式: 1.1,按列切 column: 将矩阵Y按列分块得到两个矩阵Y1&Y2,矩阵X分别和 Y1&Y2相乘,然后将得到的结果Z1&Z2,按列拼接得到结果 1.2,按行切 row 将矩阵Y按行分块得到两个矩阵Y1&Y2,为了符合矩阵乘法规则,将X按列分块得到X1&X2,分块结果分别对应相乘,得到中间结果Y1&Y2再相加后得到最终结果Z。 3,自注意力层分块计算 参数矩阵分解方式:对三个参数矩阵Q,K,V,按照”列切割”,每个头放到一块GPU上,做并行计算。

    36210编辑于 2026-01-13
  • 来自专栏罗西的思考

    并行分布式框架 Celery 之 容错机制

    0x00 摘要 Celery是一个简单、灵活且可靠的,处理大量消息的分布式系统,专注于实时处理的异步任务队列,同时也支持任务调度。本文介绍 Celery 的故障转移容错机制。 =2, interval_max=30, callback=None, reraise_as_library_errors=True, timeout=None exchange': '', 'routing_key': 'celery'}}> raw_message = {dict: 5} 'body' = {str} 'W1syLCA4XSwge30sIHsiY2FsbGJhY2tzIjogbnVsbCwgImVycmJhY2tzIjogbnVsbCwgImNoYWluIjogbnVsbCwgImNob3JkIjogbnVsbH1d "[{\"body\": \"W1syLCA4XSwge30sIHsiY2FsbGJhY2tzIjogbnVsbCwgImVycmJhY2tzIjogbnVsbCwgImNoYWluIjogbnVsbCwgImNob3JkIjogbnVsbH1d 这里宣传一个同学的分布式函数调度框架,https://github.com/ydf0509/distributed_framework。非常优秀的实现。大家可以作为 Celery 的替代品。

    1.1K20发布于 2021-05-19
  • 来自专栏数据结构和算法

    探索LightGBM:并行化与分布式训练

    本教程将详细介绍如何在Python中使用LightGBM进行并行化和分布式训练,并提供相应的代码示例。 并行化训练 LightGBM支持多线程和多进程的并行化训练,可以利用多核CPU来加速模型训练。 ': 2, # 使用2台机器 } # 训练模型 lgb_model = lgb.train(params, train_data, num_round) 结论 通过本教程,您学习了如何在Python 中使用LightGBM进行并行化和分布式训练。 我们介绍了如何利用多线程进行并行化训练,并演示了如何在多台机器上进行分布式训练。 通过这篇博客教程,您可以详细了解如何在Python中使用LightGBM进行并行化和分布式训练。 您可以根据需要对代码进行修改和扩展,以满足特定的并行化和分布式训练需求。

    86210编辑于 2024-02-28
  • 来自专栏Android&Java技术

    RxJava2.x 的并行编程

    题图:来自飞哥的图片工厂 音乐推荐:你的姑娘 文丨IT大飞说 预计阅读时间:1.2 分钟 哈喽,朋友们,之前我们学习了一些 RxJava2.x 的常用操作符,今天我们来继续学习一下RxJava 的并行编程。 2.使用 RxJava 的 flatMap 实现并行编程 我们前面学习过 flatMap 操作符,我们知道 flatMap 可以将一些数据转换成一些 Observables,然后我们可以指定它的调度器来实现并行编程的目的 -> executorService.shutdown()) .subscribe(s -> LogUtil.i(TAG, "s===" + s)); } 这 2 3.使用 ParallelFlowable 实现并行编程 Flowable 是 RxJava2.x 新增的被观察者,支持背压,因此它对应的并行被观察者为 ParallelFlowable,因为并行编程肯定涉及到异步

    1.2K20发布于 2020-02-27
  • 来自专栏罗西的思考

    模型并行分布式训练Megatron (1) --- 论文 & 基础

    [源码解析] 模型并行分布式训练Megatron (1) --- 论文 & 基础 目录 [源码解析] 模型并行分布式训练Megatron (1) --- 论文 & 基础 0x00 摘要 0x01 Introduction 1.5 指导原则 Megatron 开发者研究了各种组合之间如何影响吞吐量,基于这些研究得出来分布式训练的一些指导原则: 不同的并行模式以复杂的方式互相作用:并行化策略影响通信量、核的计算效率,以及worker 分布式训练是通信密集型的。使用较慢的节点间连接或更多的通信密集型分区会阻碍性能。 FlexFlow是一个进行这种并行计算的深度学习框架,并且提供了一种选择最佳并行化策略的方法。最近,Mesh TensorFlow引入了一种语言,用于指定TensorFlow中的一般分布式张量计算。 (一) NVIDIA Megatron:超大Transformer语言模型的分布式训练框架 (二)

    4K10编辑于 2022-05-09
  • 来自专栏罗西的思考

    并行分布式任务队列 Celery 之 负载均衡

    [源码解析] 并行分布式任务队列 Celery 之 负载均衡 目录 [源码解析] 并行分布式任务队列 Celery 之 负载均衡 0x00 摘要 0x01 负载均衡 1.1 哪几个 queue 1.1.1 Autoscaler 2.1 调用时机 2.2 具体实现 2.2.1 bgThread 2.2.2 定义 0xEE 个人信息 0xFF 参考 0x00 摘要 Celery是一个简单、灵活且可靠的,处理大量消息的分布式系统 | +--------+----------------------------------------> queue 2 key | | queue n | | +--------+----------------------------------------> queue 2 key | | queue n | Single Thread | | +------------+---------+ | +---------------------> queue 2

    1.1K20发布于 2021-05-17
  • 来自专栏罗西的思考

    并行分布式框架 Celery 之 worker 启动 (1)

    0x00 摘要 Celery是一个简单、灵活且可靠的,处理大量消息的分布式系统,专注于实时处理的异步任务队列,同时也支持任务调度。Celery 是调用其Worker 组件来完成具体任务处理。 接下来,这个worker具有两套数据结构,这两套数据结构是并行运行的,他们分别是 'ET时刻表' 、就绪队列。 type} <class 'celery.app.registry.TaskRegistry'> set_as_current = {bool} True steps = {defaultdict: 2} reduce__'] = __reduce__ # 如果默认则生成的类设置__reduce__方法 return type(bytes_if_py2(

    1.3K20发布于 2021-04-01
  • 来自专栏Michael阿明学习之路

    使用云函数进行分布式并行计算

    云函数概念 2. web云函数 3. 部署+发布新版本 4. 测试 5. 事件函数 6. 使用场景 1. 2. web云函数 采用 腾讯云 https://console.cloud.tencent.com/scf/list 新建一个web函数 直接在编辑器里写代码 from flask import Flask "name": f"hello {body.get('name', 'no name')}", "event": json.dumps(event, indent = 2) \",\n \"x-api-scheme\": \"https\",\n \"x-b3-traceid\": \"cc2c7738390ecd1ce03e3d4a1865a\",\n "}, "RequestId": "2d6ae115-ff2b-4852-8150-3ff68f67d9a0"} 6.

    77510编辑于 2023-12-08
领券