我已经开始使用crawler4j了,它似乎可以搜索到没有问题的网站。但是,我需要保存抓取的数据。crawler4j是否支持此功能?
我试过使用高级java源代码(和Downloader.java),但似乎不起作用
具体地说,下面的代码从不打印任何内容。
Downloader myDownloader = new Downloader();
Page page = myDownloader.download("http://ics.uci.edu");
if (page != null) {
System.out.println(page.getText());
}我希望能对此提供一些意见。
谢谢
发布于 2012-06-25 13:21:34
如果您正在使用自己的Crawler来扩展WebCrawler类,则可以访问在access ( page )方法中爬行的页面的详细信息。例如,下面的代码将为您提供页面内容:
String content = new String(page.getContentData(), page.getContentCharset());在那里,您可以将其保存到磁盘或应用所需的任何处理。
发布于 2011-09-17 08:34:21
你在其他页面上试过了吗?事实上,您正在使用的url缺少一个"www“。正确的是http://www.ics.uci.edu/
https://stackoverflow.com/questions/7451397
复制相似问题