我已经在几台Win7 (32/64位)计算机上安装了condor 8.2.0,按照这个指南:http://www.slideshare.net/gtelzur/condor8-win-install所有的服务都在同一台机器上运行,因此我排除了物理网络中断的可能性。
每当创建/提交作业时,它都会处于空闲模式。详细查看日志文件可发现以下问题(ShadowLog):
07/07/14 08:10:47 (1.1) (PID1): **** condor_shadow (condor_SHADOW) pid PID1 EXITING WITH STATUS 107
07/07/14 08:10:47 (1.0) (PID2): condor_read() failed: recv(fd=540) returned -1, errno = 10054 , reading 5 bytes from startd slot1@mycomputer.mydomain.local.
07/07/14 08:10:47 (1.0) (PID2): IO: Failed to read packet header
07/07/14 08:10:47 (1.0) (PID2): Can no longer talk to condor_starter <192.168.25.120:56186>我找不到有关ID为10054的IO异常的更多详细信息。除此之外,如果我搜索"Condor IO: Failed to read packet header“,Google不会给我有用的提示。
你有什么线索可以解决这个问题吗?
发布于 2014-07-30 12:34:41
我也遇到了同样的问题,当我在C:\Condor (它是在D:\Condor中)中重新安装神鹰的时候,这个问题已经解决了。
请注意,在使用Condor 8.2.1时,我遇到了一个不相关的问题:我必须编辑condor_config文件并删除CONDOR_HOST = $$(FULL_HOSTNAME)行中的一个$,否则会出现解析错误。
发布于 2014-08-05 04:30:01
当你看到
condor_read() failed: .... reading 5 bytes from .....
在其中一个日志文件中,这通常意味着连接的另一端挂起,因此您应该在日志文件中查找转换的另一端。在这种情况下,这将是mycomputer.mydomain.local上的StarterLog.slot1 (或者可能只是StarterLog,如果问题很早发生的话)。
通常,当守护进程挂起时,挂起的原因在日志中,而且通常问题是对话的另一方未经授权。查看与ALLOW_*匹配的配置值以了解授权内容。
https://stackoverflow.com/questions/24647062
复制相似问题