我们在一个集群中使用Lustre,其中包含大约200 to的存储,12个对象存储目标(使用QDR Infiniband连接到DDN存储系统),以及大约160四和8核计算注释。这个系统的大多数用户根本没有任何问题,但我的任务是I/O密集型的。当我运行一个具有250-500个进程的数组作业时,这些进程同时冲击文件系统,通常在10到20个进程之间失败。日志文件表明OSTs上的负载超过2,并且Lustre客户端正在返回错误的数据或失败的read()函数调用。
目前,我们解决问题的唯一方法是减少同时运行的作业。这是不能令人满意的,因为没有办法事先知道我的工作量是CPU繁重还是I/O繁重。此外,仅仅关闭负载并不是运行超级计算机的方法:我们希望它在负载下运行时运行慢一些,而不是产生错误的答案。
我想知道如何配置光泽,以便客户端在OSTs负载太高时阻塞,而不是让客户端获取坏数据。
如何配置光泽以使客户端阻塞?
发布于 2013-09-24 18:24:52
你有没有想过要加入更多的OSS和扩大卵巢?这样就可以减轻负荷了。在这种情况下,你在做什么样的I/O模式?你有很多大文件吗?如果有的话,它们是条形的吗?默认的条带是1,这意味着每个文件只驻留在一个OST上,可以根据每个文件(在create)或每个目录(对于新文件)进行更改。
您还可以尝试增加lustre中的超时(lctl get_param/set_param),即:
https://serverfault.com/questions/473555
复制相似问题