我有一个小项目,我正在尝试用crawler4j 4.1爬行几百万页(我对这个数字没有一个明确的估计)。我使用的BasicCrawler示例只对其做了一些小的更改。在我开始爬行之后不久,Crawler4J日志显示了以下不断出现的错误
[Crawler 1] ERROR edu.uci.ics.crawler4j.crawler.WebCrawler - null, while processing: http://www.somelink.com.我尝试过将礼貌策略的时间提高到1000毫秒,甚至尝试用一个线程运行爬虫,但同样的事情一直在发生。
此外,从长远来看,crawler4J似乎是随机挂起的,我不得不在每次冻结时停止并重新启动它。
知道是什么导致了这一切吗?Crawler4J是否将无法到达的链接重新安排回前沿?
谢谢
发布于 2016-03-20 15:51:51
虽然我不太清楚是什么导致了这个错误,但是,我试图跟踪所有的爬行链接和那些仍然在前沿。我可以确认两件事。
https://stackoverflow.com/questions/36048375
复制相似问题