最近,我不得不用开源项目crawler4j.However抓取一些网站,crawler4j没有为using.Now提供任何api,我遇到了一个问题,如何使用crawler4j提供的函数和类来解析html并找到元素
发布于 2013-09-16 14:56:22
它相对简单。下面的方法对我很有效。
在MyCrawler.java中
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
...
public void visit(Page page) {
...
if (page.getParseData() instanceof HtmlParseData) {
HtmlParseData htmlParseData = (HtmlParseData) page.getParseData();
String html = htmlParseData.getHtml();
Document doc = Jsoup.parseBodyFragment(html);
...https://stackoverflow.com/questions/18638829
复制相似问题