我使用PHPCrawl类来爬行网站并构建一个链接列表。这一切都运行得很好,但速度很慢,然后我会使用这些链接来执行其他任务。
我遇到了一个问题,我第一次运行脚本时它完成了,但没有结果,然后下一次我运行它时,它就像预期的那样工作。大约有30%的时间是失败的。
我起初以为这是网络或工作站问题,但在使用不同ISP的不同位置的不同计算机上也出现了相同的问题。
有没有其他人使用过这个类并遇到了同样的问题?
发布于 2010-10-22 21:28:54
经过广泛的测试,我发现它似乎与streamTimeout设置有关。
这里的问题是,将其设置得太高会导致爬行速度非常慢。对connectionTimeout的修补似乎在一定程度上解决了这一问题。
https://stackoverflow.com/questions/3996259
复制相似问题