在我的应用程序中,我使用了crawler4j。虽然应用程序很大,但我甚至用这里给出的示例代码测试了代码:https://code.google.com/p/crawler4j/source/browse/src/test/java/edu/uci/ics/crawler4j/examples/basic/
问题是,它适用于大多数网站,但当我添加种子url作为:http://indianexpress.com/,爬虫停止,没有任何错误消息我的eclipse。我试了几次,但就是不起作用。我尝试在shouldVisit方法中打印url和示例文本,比如"hello“,但没有打印任何内容,这意味着它甚至不能到达那里。可能的问题是什么?
编辑:
我只是想,crawler4j并不是为任何wordpress网站工作的。例如,http://darcyconroy.net/或者你可以检查http://indianexpress.com/next (将/next添加到任何wordpress站点的url)。可能的原因是什么?http://indianexpress.com/robots.txt似乎没有任何可疑的东西。
发布于 2014-05-08 19:33:25
我认为,除了robots.txt之外,wordpress站点还提供了一些插件来过滤用户代理。
我可以说爬行被服务器阻止了。
启用记录器输出。
BasicConfigurator.configure();
将Logger设置为WARN级别。
Logger.getRootLogger().setLevel(Level.WARN);
使用下面的代码将UserAgent字符串更改为空,它将抓取数据。
config.setUserAgentString("");
所以我认为这与crawler4j无关。Crawler4j设置默认的Useragent字符串,我认为这是被阻止的,或者它的useragent字符串被这样的插件列入黑名单。
https://stackoverflow.com/questions/23413880
复制相似问题