首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >允许非根用户使用infiniband

允许非根用户使用infiniband
EN

Server Fault用户
提问于 2012-08-28 15:30:59
回答 4查看 2.3K关注 0票数 0

我在RHEL 6.3上运行了Infiniband

代码语言:javascript
复制
[root@master ~]# ibv_devinfo 
hca_id: mthca0
transport:          InfiniBand (0)
fw_ver:             4.7.927
node_guid:          0017:08ff:ffd0:6f1c
sys_image_guid:         0017:08ff:ffd0:6f1f
vendor_id:          0x08f1
vendor_part_id:         25208
hw_ver:             0xA0
board_id:           VLT0060010001
phys_port_cnt:          2
    port:   1
        state:          PORT_ACTIVE (4)
        max_mtu:        2048 (4)
        active_mtu:     2048 (4)
        sm_lid:         2
        port_lid:       3
        port_lmc:       0x00
        link_layer:     InfiniBand

    port:   2
        state:          PORT_DOWN (1)
        max_mtu:        2048 (4)
        active_mtu:     512 (2)
        sm_lid:         0
        port_lid:       0
        port_lmc:       0x00
        link_layer:     InfiniBand

但它只起根的作用。

当一个非超级用户尝试的时候,我什么也没有得到:

代码语言:javascript
复制
[nicolas@master ~]$ ibv_devices
device                 node GUID
------              ----------------
mthca0              001708ffffd06f1c

那么,如何允许常规用户使用infiniband呢?

EN

回答 4

Server Fault用户

回答已采纳

发布于 2012-08-28 16:03:43

好的,这是RHEL6.3版本中的一个bug

缺少Udev规则:

/etc/udev/udev.d/90-udev.规则

代码语言:javascript
复制
KERNEL=="umad*", SYMLINK+="infiniband/%k"
KERNEL=="issm*", SYMLINK+="infiniband/%k"
KERNEL=="ucm*", SYMLINK+="infiniband/%k", MODE="0666"
KERNEL=="uverbs*", SYMLINK+="infiniband/%k", MODE="0666"
KERNEL=="uat", SYMLINK+="infiniband/%k", MODE="0666"
KERNEL=="ucma", SYMLINK+="infiniband/%k", MODE="0666"
KERNEL=="rdma_cm", SYMLINK+="infiniband/%k", MODE="0666"

请参阅https://www.centos.org/modules/newbb/viewtopic.php?topic_id=38586&forum=55

票数 3
EN

Server Fault用户

发布于 2013-01-31 10:14:12

最好简单地用修复版本rdma-3.3-4更新软件包.这里有更多详细信息:http://rhn.redhat.com/errata/RHBA-2012-1423.html

票数 1
EN

Server Fault用户

发布于 2013-01-31 02:46:38

以下是更完整的信息,供寻求解决此问题的人在RH 6.3 Linux 2.6.32-279.9.1.el6.x86_64 #1 SMP星期五8月31日09:04:24 x86_64 2012年GNU/Linux

代码语言:javascript
复制
**#ibstat**
CA 'mlx4_0'
        CA type: MT4099
        Number of ports: 2
        Firmware version: 2.10.700
        Hardware version: 0
        Node GUID: 0x0002c90300129780
        System image GUID: 0x0002c901013029781
        Port 1:
                State: Active
                Physical state: LinkUp
                Rate: 56
                Base lid: 1
                LMC: 0
                SM lid: 1
                Capability mask: 0x0251486a
                Port GUID: 0x0002c901013029781
                Link layer: InfiniBand

1.将缺失的文件创建为root文件:

代码语言:javascript
复制
**vi /etc/udev/rules.d/90-rdma.rules**

------------ cut here ------------
KERNEL=="umad*", SYMLINK+="infiniband/%k"
KERNEL=="issm*", SYMLINK+="infiniband/%k"
KERNEL=="ucm*", SYMLINK+="infiniband/%k", MODE="0666"
KERNEL=="uverbs*", SYMLINK+="infiniband/%k", MODE="0666"
KERNEL=="uat", SYMLINK+="infiniband/%k", MODE="0666"
KERNEL=="ucma", SYMLINK+="infiniband/%k", MODE="0666"
KERNEL=="rdma_cm", SYMLINK+="infiniband/%k", MODE="0666"
------------ cut here ------------

在管理节点上。(头节点、服务节点等)

2.通过ssh或任何首选方法将该文件复制到集群中的任何计算节点。

代码语言:javascript
复制
**#ssh compute000 cp /home/90-rdma.rules /etc/udev/rules.d/90-rdma.rules**

**#ssh compute001 cp /home/90-rdma.rules /etc/udev/rules.d/90-rdma.rules**

**#ssh compute002 cp /home/90-rdma.rules /etc/udev/rules.d/90-rdma.rules**

**#ssh compute003 cp /home/90-rdma.rules /etc/udev/rules.d/90-rdma.rules**

**#ssh compute004 cp /home/90-rdma.rules /etc/udev/rules.d/90-rdma.rules**

3.验证文件是否在/etc/udev/rules.d中每个计算节点的文件夹中创建。

代码语言:javascript
复制
**#ssh compute000 ls /etc/udev/rules.d | grep rdm 
*#90-rdma.rules ***

4.重新启动所有计算节点和管理节点。

注意: a.更改后,用户在运行命令时仍将得到此结果。

代码语言:javascript
复制
ibv_devices

[root@master ~]# ibv_devices
    device                 node GUID
    ------              ----------------
    mlx4_0              0002c901013029781

但是不要担心,只要运行您喜欢的mpi应用程序就行了。

b.问题是,无论使用任何HCA供应商,都直接连接到操作系统。

这似乎是由rdma包上游的更改(不再有udev规则)引起的,infiniband设备由内核使用错误的权限创建。这个问题已经被CentOS 6.3和科学Linux6.3的用户报告了。

希望能帮助别人

票数 0
EN
页面原文内容由Server Fault提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://serverfault.com/questions/422057

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档