问Crawler4J null，同时处理(链接)错误
EN

Stack Overflow用户

提问于 2016-03-16 22:43:54

回答 1查看 294关注 0票数 0

我有一个小项目，我正在尝试用crawler4j 4.1爬行几百万页(我对这个数字没有一个明确的估计)。我使用的BasicCrawler示例只对其做了一些小的更改。在我开始爬行之后不久，Crawler4J日志显示了以下不断出现的错误

[Crawler 1] ERROR edu.uci.ics.crawler4j.crawler.WebCrawler - null, while processing: http://www.somelink.com.

我尝试过将礼貌策略的时间提高到1000毫秒，甚至尝试用一个线程运行爬虫，但同样的事情一直在发生。

此外，从长远来看，crawler4J似乎是随机挂起的，我不得不在每次冻结时停止并重新启动它。

知道是什么导致了这一切吗？Crawler4J是否将无法到达的链接重新安排回前沿？

谢谢

回答已采纳

发布于 2016-03-20 15:51:51

虽然我不太清楚是什么导致了这个错误，但是，我试图跟踪所有的爬行链接和那些仍然在前沿。我可以确认两件事。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/36048375

复制

相似问题

问Crawler4J null，同时处理(链接)错误EN