当我运行qstat时,我得到以下错误:
socket_connect_unix failed: 15137
socket_connect_unix failed: 15137
socket_connect_unix failed: 15137
qstat: cannot connect to server (null) (errno=15137) could not connect to trqauthd
qstat: Error (15137 - could not connect to trqauthd) 我运行"ps aux | grep trqauthd“,发现进程中列出了trqauthd。
如果我重新运行trqauthd,一切都将正常,并且ps将列出两个trqauthd。
它将工作5-6天,然后再次失败。
发布于 2016-06-07 02:55:52
如果守护进程仍然在那里,但不响应,并且重新启动它是纠正问题的唯一方法,那么这听起来就像是一个bug。您可以通过torqueusers邮件列表与开发人员联系,看看他们是否可以指导您做一些事情,比如在gdb中运行它和生成用于调试的核心。最新的版本添加了systemd支持来替换旧的init风格的脚本,因此您可以添加一个检查并重新启动服务指令,或者您可以创建一个重新启动(或终止并重新启动...)的cron脚本。经常使用trqauthd,只是为了防止工作中断。
https://stackoverflow.com/questions/37573529
复制相似问题