首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用crawler4j。如何保存网站数据?

使用crawler4j。如何保存网站数据?
EN

Stack Overflow用户
提问于 2011-09-17 07:40:22
回答 2查看 2.7K关注 0票数 1

我已经开始使用crawler4j了,它似乎可以搜索到没有问题的网站。但是,我需要保存抓取的数据。crawler4j是否支持此功能?

我试过使用高级java源代码(和Downloader.java),但似乎不起作用

具体地说,下面的代码从不打印任何内容。

代码语言:javascript
复制
    Downloader myDownloader = new Downloader();
    Page page = myDownloader.download("http://ics.uci.edu");

    if (page != null) {
        System.out.println(page.getText());
    }

我希望能对此提供一些意见。

谢谢

EN

回答 2

Stack Overflow用户

发布于 2012-06-25 13:21:34

如果您正在使用自己的Crawler来扩展WebCrawler类,则可以访问在access ( page )方法中爬行的页面的详细信息。例如,下面的代码将为您提供页面内容:

代码语言:javascript
复制
String content = new String(page.getContentData(), page.getContentCharset());

在那里,您可以将其保存到磁盘或应用所需的任何处理。

票数 2
EN

Stack Overflow用户

发布于 2011-09-17 08:34:21

你在其他页面上试过了吗?事实上,您正在使用的url缺少一个"www“。正确的是http://www.ics.uci.edu/

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/7451397

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档