首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在使用crawler4j时解析html

如何在使用crawler4j时解析html
EN

Stack Overflow用户
提问于 2013-09-05 22:18:49
回答 1查看 2.4K关注 0票数 3

最近,我不得不用开源项目crawler4j.However抓取一些网站,crawler4j没有为using.Now提供任何api,我遇到了一个问题,如何使用crawler4j提供的函数和类来解析html并找到元素

EN

回答 1

Stack Overflow用户

发布于 2013-09-16 14:56:22

它相对简单。下面的方法对我很有效。

MyCrawler.java

代码语言:javascript
复制
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
...
public void visit(Page page) {
...
if (page.getParseData() instanceof HtmlParseData) {
                    HtmlParseData htmlParseData = (HtmlParseData) page.getParseData();
                    String html = htmlParseData.getHtml();
                    Document doc = Jsoup.parseBodyFragment(html);
...
票数 8
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/18638829

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档