首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏罗西的思考

    PyTorch 分布式(3) ----- DataParallel(下)

    [源码解析] PyTorch 分布式(3) ----- DataParallel(下) 目录 [源码解析] PyTorch 分布式(3) ----- DataParallel(下) 0x01 前向操作 现在要做的就是把分布式计算的梯度合并到 device[0],就是 self.output_device。 0xFF 参考 PyTorch 源码解读之 torch.optim:优化算法接口详解 pytorch(分布式)数据并行个人实践总结——DataParallel/DistributedDataParallel Pytorch的nn.DataParallel PyTorch 源码解读之分布式训练了解一下? Pytorch踩坑记:赋值、浅拷贝、深拷贝三者的区别以及model.state_dict()和model.load_state_dict()的坑点 PyTorch 源码解读之 DP & DDP:模型并行和分布式训练解析

    1.2K30发布于 2021-11-15
  • 来自专栏有困难要上,没有困难创造困难也要上!

    Hadoop3-分布式模式安装

    接前一篇博客,这次做安装一个真正的分布式集群环境。 准备 这里准备三台机器bd1,bd2,bd3来组个hadoop集群,其中bd1作为namenode,bd1,bd2,bd3作为datanode 配置这三台机器之间可以免密码 SSH 登录,参考我以前的博客 > etc/hadoop/hdfs-site.xml <configuration> <property> <name>dfs.replication</name> <value>3< /value> </property> </configuration> 这里由于我三个节点均作为datanode,所以复制配置3。 yarn.nodemanager.vmem-pmem-ratio</name> <value>4</value> </property> </configuration> etc/hadoop/workers bd1 bd2 bd3

    58950发布于 2018-05-14
  • 来自专栏小白晋级大师

    分布式系统架构3:服务容错

    这是小卷对分布式系统架构学习的第3篇文章,虽然知道大家都不喜欢看纯技术文章,写了也没多少阅读量,但是个人要成长的话,还是需要往深一点的技术上去探索的1.为什么需要容错分布式系统的本质是不可靠的,一个大的服务集群中 2.七种容错策略7种常见的容错策略:故障转移、快速失败、安全失败、沉默失败、故障恢复、并行调用和广播调用故障转移Failover概念:分布式服务中,服务会有多个副本。 实际应用场景:分布式系统中,单点故障时,流量调度系统不再给该节点分配流量,每隔5分钟自动检查节点是否恢复。 因为做技术设计是为了解决实际问题,不能谈兵,所以方案要根据希望实现的目标而定: 如果目的是这项业务尽可能快速地完成,那就forking策略,5个一起调用,成功3个算过。 如果目的是这项业务尽可能少消耗资源,那就failfast策略,先对它们出错概率做个先验判断,排序后先调用最容易出错的,错够3次算失败,后面的不执行。

    40610编辑于 2024-12-18
  • 来自专栏chester技术分享

    .NET分布式Orleans - 3 - Grain放置

    在Orleans 7中,Grain放置是指确定将Grain对象放置在Orleans集群中的哪些物理节点上的过程。

    44710编辑于 2024-03-25
  • 来自专栏Java那些事

    Redis(3)——分布式锁深入探究

    所以同样,我们需要引入分布式锁来解决分布式应用之间访问共享资源的并发问题。 = redissionInstance1.getLock("lock1"); RLock lock2 = redissionInstance2.getLock("lock2"); RLock lock3 = redissionInstance3.getLock("lock3"); RedissionRedLock lock = new RedissionLock(lock1, lock2, lock2 release lock failed, requestToken:{}, result:{}", identify, result); return false; } 引用自下方 参考资料 3, https://github.com/redisson/redisson 手写一个 Jedis 以及 JedisPool - https://juejin.im/post/5e5101c46fb9a07cab3a953a

    62720发布于 2020-03-13
  • 来自专栏罗西的思考

    PyTorch分布式优化器(3)---- 模型并行

    [源码解析] PyTorch分布式优化器(3)---- 模型并行 目录 [源码解析] PyTorch分布式优化器(3)---- 模型并行 0x00 摘要 0x01 前文回顾 0x02 单机模型 2.1 模型并行被广泛用于分布式训练。 0x03 分布式问题和方案 我们已经了解了单机之上的模型并行,接下来就要看模型跨越多个服务器的分布式模型并行训练。 3.1 思路 我们先设想一下如果自己实现分布式优化器,应该如何处理。 4.2 简单的端到端示例 综上所述,以下是使用分布式 autograd 和分布式优化器的简单端到端示例。 本stage(数值为 3)对应的是 index 为 3,4 的两个 module,就是下面的 3 ,3.

    1.8K40编辑于 2021-12-10
  • 来自专栏有困难要上,没有困难创造困难也要上!

    Hadoop3-伪分布式模式安装

    今天无意间看到Hadoop3去年年底就release了,今天就准备装个环境看看。 > <value>hdfs://<hostname>:9000</value> </property> </configuration> 修改配置文件 hdfs-site.xml,因为是伪分布式模式

    1.3K70发布于 2018-05-14
  • 来自专栏golang算法架构leetcode技术php

    golang源码分析:dtm分布式事务(3

    在简单介绍完使用的例子后golang源码分析:dtm分布式事务(1)golang源码分析:dtm分布式事务(2),我们分析下服务端的源码实现。

    70610编辑于 2023-03-01
  • 来自专栏java达人

    分布式系统模式3-Segmented Log

    来源: https://martinfowler.com/articles/patterns-of-distributed-systems/

    50610发布于 2020-12-03
  • 来自专栏实战docker

    Mac部署hadoop3(伪分布式)

    3. 进入目录hadoop-3.2.1/sbin,执行./start-yarn.sh启动yarn: base) zhaoqindeMBP:sbin zhaoqin$ . NodeManager 1825 SecondaryNameNode 2065 ResourceManager 1591 NameNode 2234 Jps 1691 DataNode 至此,hadoop3分布式环境的部署 builtin-java classes where applicable Stopping nodemanagers Stopping resourcemanager 以上就是Mac环境部署hadoop3的全部过程

    1.4K11发布于 2019-10-22
  • 来自专栏罗西的思考

    TensorFlow 分布式环境(3)--- Worker 静态逻辑

    [源码解析] TensorFlow 分布式环境(3)--- Worker 静态逻辑 目录 [源码解析] TensorFlow 分布式环境(3)--- Worker 静态逻辑 1. GrpcRemoteWorker 2.1 定义 2.2 生成 2.3 发送请求 3. GrpcWorker 0xFF 参考 在具体介绍 TensorFlow 分布式的各种 Strategy 之前,我们首先需要看看分布式的基础:分布式环境。 Systems" [翻译] TensorFlow 分布式之论文篇 "Implementation of Control Flow in TensorFlow" [源码解析] TensorFlow 分布式环境 [腾讯机智] TensorFlow源码解析(1): 创建会话 05tensorflow分布式会话 第八节,配置分布式TensorFlow TensorFlow 分布式(Distributed TensorFlow

    65820编辑于 2022-05-09
  • 来自专栏罗西的思考

    PyTorch 分布式之弹性训练(3)---代理

    [源码解析] PyTorch 分布式之弹性训练(3)---代理 目录 [源码解析] PyTorch 分布式之弹性训练(3)---代理 0x00 摘要 0x01 总体背景 1.1 功能分离 1.2 Rendezvous 弹性训练系列文章如下: [源码解析] PyTorch 分布式之弹性训练(1) --- 总体思路 [源码解析] PyTorch 分布式之弹性训练(2)---启动&单节点流程 0x01 总体背景 我们先总述一下 Use 4 x double GPU instances, place an agent per instance, managing 2 workers per agent. 3. 工作进程被假定为常规分布式PyTorch脚本。当worker进程由代理创建时,代理将为worker进程提供必要的信息,以便正确初始化torch进程组。 确定role rank:使用第3点中的算法确定role rank,不同之处是:偏移量计算是从与当前角色相同且具有最小 group rank 的第一个代理开始。

    1.5K20编辑于 2021-12-28
  • 来自专栏王磊的博客

    分布式锁的3种实现!附代码

    分布式锁是一种用于保证分布式系统中多个进程或线程同步访问共享资源的技术。同时它又是面试中的常见问题,所以我们本文就重点来看分布式锁的具体实现(含实现代码)。 2.实现方案 在 Java 中,实现分布式锁的方案有多种,包括: 基于数据库实现的分布式锁:可以通过数据库的乐观锁或悲观锁实现分布式锁,但是由于数据库的 IO 操作比较慢,不适合高并发场景。 基于 Redis 实现的分布式锁:Redis 是一个高性能的内存数据库,支持分布式部署,可以通过Redis的原子操作实现分布式锁,而且具有高性能和高可用性。 3.数据库分布式锁 数据库的乐观锁或悲观锁都可以实现分布式锁,下面分别来看。 在 Spring Boot 中,可以使用 Curator 框架来实现 ZooKeeper 分布式锁,具体实现分为以下 3 步: 引入 Curator 和 ZooKeeper 客户端依赖; 配置 ZooKeeper

    54230编辑于 2023-09-14
  • 来自专栏DDD

    zookeeper知识结构3-分布式

    )的抽象封装 所以推荐使用curator 应用 主要介绍两种常见情景,一是分布式锁,二是master选举 分布式锁 为什么zk能实现分布式锁? 获取到了对应同一个资源的锁 RedLock算法 为了应对这个情形, redis的作者antirez提出了RedLock算法,步骤如下(该流程出自官方文档),假设我们有N个master节点(官方文档里将N设置成5,其实大等于3就行 master节点上阻塞过长时间,如果一个master节点不可用了,我们应该尽快尝试下一个master节点 客户端计算第二步中获取锁所花的时间,只有当客户端在大多数master节点上成功获取了锁(在这里是3个 所以为了保证分布式锁的正确性,我觉得使用强一致性的分布式协调服务能更好的解决问题 而强一致问题,zk可以完成,zk是个CP系统,zk内部机制就保证了各数据的一致性 分布式锁 到此,对分布式锁的实现可以总结一下 《How to do distributed locking》 curator使用说明 分布式锁实现抉择 聊一聊分布式锁的设计

    43820发布于 2021-03-23
  • 来自专栏分布式锁原理与源码

    分布式锁—3.Redisson的公平锁

    , 1 do " + //对有序集合KEYS[3]的成员keys[i]的score减去:tonumber(ARGV[3]) //ARGV[3]就是线程获取锁时可以等待的时间, 由于此时的ARGV[2] = UUID3:ThreadID3,所以判断条件成立。即在队列里排队的最后一个元素并不是当前尝试获取锁的客户端线程。 //ARGV[3]就是线程获取锁时可以等待的时间,默认是5分钟 "redis.call('zincrby', KEYS[3], -tonumber(ARGV[3]), keys , 1 do " + //对有序集合KEYS[3]的成员keys[i]的score减去:tonumber(ARGV[3]) //ARGV[3]就是线程获取锁时可以等待的时间, 接着,执行"hset myLock UUID3:ThreadID3 1"进行加锁,设置field为UUID + 线程ID的value值为1。

    43200编辑于 2025-05-13
  • 来自专栏罗西的思考

    PyTorch 分布式 Autograd (3) ---- 上下文相关

    [源码解析] PyTorch 分布式 Autograd (3) ---- 上下文相关 目录 [源码解析] PyTorch 分布式 Autograd (3) ---- 上下文相关 0x00 摘要 0x01 DistAutogradContext 存储在一个worker之上的每一个分布式autograd的相关信息,其在分布式 autograd 之中封装前向和后向传播,累积梯度,这避免了多个worker在彼此的梯度上互相影响 4.3.2.1 Python 当分布式调用时候,python世界会生成一个context。 3), requires_grad=True) >>> t2 = torch.rand((3, 3), requires_grad=True) >>> loss 每个worker存储与此 context_id关联的元数据,这是正确执行分布式自动加载过程所必需的。

    86040编辑于 2021-12-04
  • 来自专栏大数据学习笔记

    Flink学习笔记:3、Flink分布式模式(Standalone)

    [root@node1 flink-1.3.2]# vi conf/slaves [root@node1 flink-1.3.2]# cat conf/slaves node1 node2 node3 -1.3.2]# scp -r /opt/flink-1.3.2/ node2:/opt [root@node1 flink-1.3.2]# scp -r /opt/flink-1.3.2/ node3: Starting taskmanager daemon on host node3. JobManager [root@node1 flink-1.3.2]# [root@node2 ~]# jps 3136 TaskManager 3167 Jps [root@node2 ~]# [root@node3 ~]# jps 3411 Jps 3389 TaskManager [root@node3 ~]# 3.5 WebUI If all the configurations are good, then

    3.1K90发布于 2018-01-02
  • 来自专栏王磊的博客

    分布式锁的3种实现!附代码

    分布式锁是一种用于保证分布式系统中多个进程或线程同步访问共享资源的技术。同时它又是面试中的常见问题,所以我们本文就重点来看分布式锁的具体实现(含实现代码)。 2.实现方案在 Java 中,实现分布式锁的方案有多种,包括:基于数据库实现的分布式锁:可以通过数据库的乐观锁或悲观锁实现分布式锁,但是由于数据库的 IO 操作比较慢,不适合高并发场景。<! Spring Boot 中,可以使用 Curator 框架来实现 ZooKeeper 分布式锁,具体实现分为以下 3 步:基于 ZooKeeper 实现的分布式锁:ZooKeeper 是一个高可用性的分布式协调服务 基于 Redis 实现的分布式锁:Redis 是一个高性能的内存数据库,支持分布式部署,可以通过Redis的原子操作实现分布式锁,而且具有高性能和高可用性。 3.数据库分布式锁数据库的乐观锁或悲观锁都可以实现分布式锁,下面分别来看。

    56540编辑于 2023-09-13
  • 来自专栏allsmallpi博客

    分布式事务2PC && 3PC

    转载自 https://blog.csdn.net/secretx/article/details/53322989 分布式 二阶段提交(Two-phase Commit)是指,为了使基于分布式系统架构下的所有节点在进行事务提交时保持一致性而设计的一种算法 通常,二阶段提交也被称为是一种协议(Protocol)… 在分布式系统中,每个节点虽然可以知晓自己的操作时成功或者失败,却无法知道其他节点的操作的成功或失败。 2PC 无法解决这个问题,这个问题有可能导致数据不一致的 ,于是就有了3PC(三阶段提交) 3PC 三阶段提交(英语:Three-phase commit),也叫三阶段提交协议(英语:Three-phase commit protocol),是在计算机网络及数据库的范畴下,使得一个分布式系统内的所有节点能够执行事务的提交的一种分布式算法。 参考 wikipedia 分布式系统的事务处理 关于分布式事务、两阶段提交协议、三阶提交协议 深入理解分布式系统的2PC和3PC 吃水不忘挖井人:原文链接:http://int64.me/2016/%E5%

    1.1K10发布于 2021-02-25
  • 来自专栏软测小生

    性能测试工具Locust--(3)分布式运行

    注意: 在运行Locust分布式系统时,主计算机和每个从属计算机都必须具有Locust测试脚本的副本。 当分布式运行的时候,建议启动的模拟用户数量要大于Locust类的数量X从机的数量。 使用Docker进行分布式运行 详见 性能测试Locust--(5)Docker运行 (https://blog.csdn.net/zbj18314469395/article/details/104413017 ) 非UI模式下分布式运行Locust 详见 性能测试Locust--(6)非UI模式下分布式运行Locust (https://blog.csdn.net/zbj18314469395/article /details/104416996) 逐步负载模式下分布式运行Locust 详见 性能测试Locust--(4)逐步负载模式 (https://blog.csdn.net/zbj18314469395

    1.2K50发布于 2020-03-04
领券