首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用于Java的JTidy或Jsoup

用于Java的JTidy或Jsoup
EN

Stack Overflow用户
提问于 2012-09-16 00:23:21
回答 1查看 4.3K关注 0票数 7

最近,我一直在用BeautifulSoup用python开发web抓取器。现在我想知道在Java中哪些库是最受欢迎的。我做了一些搜索,主要是看到JTidy和JSoup。它们之间的区别是什么?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-09-16 00:32:44

JTidy更常用于整理超文本标记语言,即修复格式错误或错误的超文本标记语言,如未关闭的标签,例如从<div><span>text</div><div><span>text</span></div

另一方面,JSoup提供了一个成熟的API来解析HTML,并提供了来提取其中的一部分。它允许您使用像selectors这样的jQuery来查找元素或DOM methods,它们等同于您在JavaScript中使用的元素,比如getElementById。我想说JSoup确实是BeautifulSoup的Java等价物。

例如,要使用JSoup提取维基百科文章的第一段,您可以使用以下内容:

代码语言:javascript
复制
String url = "http://en.wikipedia.org/wiki/Potato";
Document doc = Jsoup.connect(url).get();
Elements paragraphs = doc.select(".mw-content-ltr p");
String firstParagraph = paragraphs.first().text();

或者从这个问题中提取标题:

代码语言:javascript
复制
Document doc = Jsoup.connect("http://stackoverflow.com/questions/12439078/jtidy-or-jsoup-for-java").get();
String question = doc.select("#question-header a").text(); // JTidy or Jsoup for Java

相当不错的API,对吧?:-)

票数 12
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/12439078

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档