首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Crawler4J null,同时处理(链接)错误

Crawler4J null,同时处理(链接)错误
EN

Stack Overflow用户
提问于 2016-03-16 22:43:54
回答 1查看 294关注 0票数 0

我有一个小项目,我正在尝试用crawler4j 4.1爬行几百万页(我对这个数字没有一个明确的估计)。我使用的BasicCrawler示例只对其做了一些小的更改。在我开始爬行之后不久,Crawler4J日志显示了以下不断出现的错误

代码语言:javascript
复制
[Crawler 1] ERROR edu.uci.ics.crawler4j.crawler.WebCrawler - null, while processing: http://www.somelink.com.

我尝试过将礼貌策略的时间提高到1000毫秒,甚至尝试用一个线程运行爬虫,但同样的事情一直在发生。

此外,从长远来看,crawler4J似乎是随机挂起的,我不得不在每次冻结时停止并重新启动它。

知道是什么导致了这一切吗?Crawler4J是否将无法到达的链接重新安排回前沿?

谢谢

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-03-20 15:51:51

虽然我不太清楚是什么导致了这个错误,但是,我试图跟踪所有的爬行链接和那些仍然在前沿。我可以确认两件事。

  1. 无法到达的链接将在边境重新安排,爬虫将尝试再次访问它们。
  2. 冻结只发生在超过最大下载大小的页面上。反过来,我增加了下载大小限制,并在要丢弃的列表上添加了一些扩展,这不是一个最佳的解决方案,但它对我起了作用。
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/36048375

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档