文章/答案/技术大牛

发布

问Crawler4j静默停止
EN

Stack Overflow用户

提问于 2014-05-02 02:17:31

回答 1查看 605关注 0票数 0

在我的应用程序中，我使用了crawler4j。虽然应用程序很大，但我甚至用这里给出的示例代码测试了代码：https://code.google.com/p/crawler4j/source/browse/src/test/java/edu/uci/ics/crawler4j/examples/basic/

问题是，它适用于大多数网站，但当我添加种子url作为：http://indianexpress.com/，爬虫停止，没有任何错误消息我的eclipse。我试了几次，但就是不起作用。我尝试在shouldVisit方法中打印url和示例文本，比如"hello“，但没有打印任何内容，这意味着它甚至不能到达那里。可能的问题是什么？

编辑：

我只是想，crawler4j并不是为任何wordpress网站工作的。例如，http://darcyconroy.net/或者你可以检查http://indianexpress.com/next (将/next添加到任何wordpress站点的url)。可能的原因是什么？http://indianexpress.com/robots.txt似乎没有任何可疑的东西。

web-crawler

crawler4j

java

回答 1

Stack Overflow用户

发布于 2014-05-08 19:33:25

我认为，除了robots.txt之外，wordpress站点还提供了一些插件来过滤用户代理。

我可以说爬行被服务器阻止了。

启用记录器输出。

BasicConfigurator.configure()；

将Logger设置为WARN级别。

Logger.getRootLogger().setLevel(Level.WARN)；

使用下面的代码将UserAgent字符串更改为空，它将抓取数据。

config.setUserAgentString("")；

所以我认为这与crawler4j无关。Crawler4j设置默认的Useragent字符串，我认为这是被阻止的，或者它的useragent字符串被这样的插件列入黑名单。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/23413880

复制

相似问题

问Crawler4j静默停止
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Crawler4j静默停止EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Crawler4j静默停止
EN