我注意到,通过Slurm从分配的计算节点连接到internet一直失败。例如,使用来自登录节点的wget可以成功地工作:
[me@gcp-login0 ~]$ wget https://cdn.kernel.org/pub/linux/kernel/v4.x/linux-4.17.2.tar.xz
--2023-05-11 19:06:34-- https://cdn.kernel.org/pub/linux/kernel/v4.x/linux-4.17.2.tar.xz
Resolving cdn.kernel.org (cdn.kernel.org)... 111.111.1.111, 111.111.11.111, 111.111.111.111, ...
Connecting to cdn.kernel.org (cdn.kernel.org)|111.111.1.111|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 102167060 (97M) [application/x-xz]
Saving to: ‘linux-4.17.2.tar.xz’
100%[======================================>] 102,167,060 277MB/s in 0.4s
2023-05-11 19:06:35 (277 MB/s) - ‘linux-4.17.2.tar.xz’ saved [102167060/102167060]但是在单个分配的GPU上,wget停止并失败:
[me@gcp-compute-0-0 ~]$ wget https://cdn.kernel.org/pub/linux/kernel/v4.x/linux-4.17.2.tar.xz
Resolving cdn.kernel.org (cdn.kernel.org)... 111.111.1.111, 111.111.11.111, 111.111.111.111, ...
Connecting to cdn.kernel.org (cdn.kernel.org)|151.101.1.176|:443...
failed: Connection timed out.因此,我想知道是否有办法解决Slurm上的计算节点的网络问题?我尝试修改防火墙设置和VPC网络细节,但似乎只影响登录节点,无法针对GCP上的计算节点设置。
发布于 2023-05-18 21:09:52
作为Goli的解决方案,尝试让SSH登录并使用srun -pty $SHELL,它带您到SSH页面的控制器。我跟踪了这个文档,这是可行的。同时附加在流体系统中常见问题的诊断与解决上的引用
https://serverfault.com/questions/1131217
复制相似问题