文章/答案/技术大牛

发布

社区首页 >问答首页 >如何为工作站配置多个节点的扭矩？

问如何为工作站配置多个节点的扭矩？
EN

Server Fault用户

提问于 2015-07-01 07:12:15

回答 1查看 1.2K关注 0票数 -1

我有一个GPU工作站与48核心CPU +4 NVIDIA GPU。我将使这台机器成为一个包含以下内容的小型集群：

4节点12核心+1 CPU/节点

我用命令在这台机器上安装了扭矩：

./configure --without-tcl --enable-nvidia-gpus --prefix=/soft/torque-5.1.1 --with-nvml-include=/usr/local/cuda/gpukit/usr/include/nvidia/gdk --with-nvml-lib=/usr/local/cuda/lib64

然后，我将/etc/hosts设置为：

127.0.0.1       localhost cudaC
127.0.0.1       localhost cudaC1
127.0.0.1       localhost cudaC2
127.0.0.1       localhost cudaC3
xxx.xxx.xxx.x   torqueserver

之后，我在/var/spool/torque/server_priv/nodes中添加了以下内容：

cudaC np=12 gpus=4
cudaC1 np=12 gpus=1
cudaC2 np=12 gpus=1
cudaC3 np=12 gpus=1

然后启动pbsserver：

#cd /soft/torque-5.1.1/sbin
#./pbs_sever
#./pbs_sched
#./ pbs_mom

使用命令pbsnodes检查状态：

cudaC                                                                                                                                                         
     state = free                                                                                                                                             
     power_state = Running                                                                                                                                    
     np = 12                                                                                                                                                  
     ntype = cluster                                                                                                                                          
     status = rectime=1435734456,cpuclock=Fixed,varattr=,jobs=,state=free,netload=136578103,gres=,loadave=0.00,ncpus=48,physmem=65982324kb,availmem=86084596kb,totmem=86954864kb,idletime=72,nusers=2,nsessions=5,sessions=1519 2350 6570 6781 11017,uname=Linux cudaC 3.16.7-21-desktop #1 SMP PREEMPT Tue Apr 14 07:11:37 UTC 2015 (93c1539) x86_64,opsys=linux                                                                                                                         
     mom_service_port = 15002                                                                                                                                 
     mom_manager_port = 15003                                                                                                                                 
     gpus = 4                                                                                                                                                 
     gpu_status = gpu[3]=gpu_id=0000:83:00.0;gpu_pci_device_id=398594270;gpu_pci_location_id=0000:83:00.0;gpu_product_name=Graphics Device;gpu_display=Enabled;gpu_fan_speed=22%;gpu_memory_total=12287 MB;gpu_memory_used=23 MB;gpu_mode=Default;gpu_state=Unallocated;gpu_utilization=0%;gpu_memory_utilization=0%;gpu_temperature=43 C,gpu[2]=gpu_id=0000:82:00.0;gpu_pci_device_id=398594270;gpu_pci_location_id=0000:82:00.0;gpu_product_name=Graphics Device;gpu_display=Enabled;gpu_fan_speed=22%;gpu_memory_total=12287 MB;gpu_memory_used=23 MB;gpu_mode=Default;gpu_state=Unallocated;gpu_utilization=0%;gpu_memory_utilization=0%;gpu_temperature=43 C,gpu[1]=gpu_id=0000:03:00.0;gpu_pci_device_id=398594270;gpu_pci_location_id=0000:03:00.0;gpu_product_name=Graphics Device;gpu_display=Enabled;gpu_fan_speed=22%;gpu_memory_total=12287 MB;gpu_memory_used=23 MB;gpu_mode=Default;gpu_state=Unallocated;gpu_utilization=0%;gpu_memory_utilization=0%;gpu_temperature=45 C,gpu[0]=gpu_id=0000:02:00.0;gpu_pci_device_id=398594270;gpu_pci_location_id=0000:02:00.0;gpu_product_name=Graphics Device;gpu_display=Enabled;gpu_fan_speed=22%;gpu_memory_total=12287 MB;gpu_memory_used=45 MB;gpu_mode=Default;gpu_state=Unallocated;gpu_utilization=0%;gpu_memory_utilization=1%;gpu_temperature=39 C,driver_ver=346.46,timestamp=Wed Jul  1 09:07:36 2015                                                                                                        

cudaC1                                                                                                                                                        
     state = down                                                                                                                                             
     power_state = Running
     np = 12
     ntype = cluster
     mom_service_port = 15002
     mom_manager_port = 15003
     gpus = 1

cudaC2
     state = down
     power_state = Running
     np = 12
     ntype = cluster
     mom_service_port = 15002
     mom_manager_port = 15003
     gpus = 1

cudaC3
     state = down
     power_state = Running
     np = 12
     ntype = cluster
     mom_service_port = 15002
     mom_manager_port = 15003
     gpus = 1

似乎只有一个节点工作查找，所有4个GPU被分发到这个节点。

我只是想知道我们如何解决这个问题？

pbs

torque

回答 1

Server Fault用户

发布于 2015-07-01 07:34:59

我的答案可能不是直接回答你的问题，但是我在几年前已经通过了这个话题，我建议你使用斯隆而不是torque。据我所知，扭矩不使用CUDA_可见_器件环境变量用于调度没有任何额外补丁的进程，但这正是NVIDIA所希望的(所以大多数应用程序都在寻找CUDA_VISIBLE_DEVICES)。

Slurm通过通用资源提供gpu支持的构建。在混合环境中，您甚至可以定义多个卡片类型，并指定您的工作应该使用什么。

除了我们的20卡设置，我看到了几个更大的gpu集群，他们都在使用slurm。

票数 1

页面原文内容由Server Fault提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://serverfault.com/questions/702759

复制

相似问题

问如何为工作站配置多个节点的扭矩？
EN

回答 1

Server Fault用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何为工作站配置多个节点的扭矩？EN

回答 1

Server Fault用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何为工作站配置多个节点的扭矩？
EN