嗨,我是新来的Jsoup,我找不到如何计算HTML网页中的代码行数,因为我正在做一个html度量项目。
如有任何帮助,将不胜感激。
发布于 2014-05-29 16:42:45
希望这能帮上忙。但这一切都取决于页面是如何创建的。有时它可能没有格式化,有时可能被混淆,可能导致不正确的计数。然而,jsoup提供了一个级别的格式。所以这个应该有帮助。
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
public class LineCounter {
public static void main(String[] args) {
Document doc;
try {
doc = Jsoup.connect("http://www.stackoverflow.com").get();
int noOfLines = doc.html().split("\n").length;
System.out.println(noOfLines);
} catch (IOException e) {
e.printStackTrace();
}
}
}发布于 2015-04-24 04:36:57
如果您需要与原始html完全相同的行数,则可以关闭prettyPrint设置。下面的代码将打印html代码中的行数。
Document doc = Jsoup.parse(html);
doc.outputSettings().prettyPrint(false);
System.out.println(doc.toString().split("\n").length);如果您设置了prettyPrint True,则jSoup将正确格式化html代码,并插入换行符,以便在新行中添加div标记等。因此,代码行数将增加。
https://stackoverflow.com/questions/23937283
复制相似问题