将HTML字符串转换为
org.w3c.dom.Document
我在用
jtidy-r938.jar
这是我的代码:
public static Document getDoc(String html) {
Tidy tidy = new Tidy();
tidy.setInputEncoding("UTF-8");
tidy.setOutputEncoding("UTF-8");
tidy.setWraplen(Integer.MAX_VALUE);
// tidy.setPrintBodyOnly(true);
tidy.setXmlOut(false);
tidy.setShowErrors(0);
tidy.setShowWarnings(false);
// tidy.setForceOutput(true);
tidy.setQuiet(true);
Writer out = new StringWriter();
PrintWriter dummyOut = new PrintWriter(out);
tidy.setErrout(dummyOut);
tidy.setSmartIndent(true);
ByteArrayInputStream inputStream = new ByteArrayInputStream(html.getBytes());
Document doc = tidy.parseDOM(inputStream, null);
return doc;
}但是有时库工作不正确,一些标签丢失了。
请告诉一个好的开放图书馆来完成这项任务。
非常感谢!
发布于 2015-06-07 11:02:49
你不知道为什么有时图书馆没有给出好的结果。尽管如此,我经常使用html文件,从中提取数据,遇到的主要问题是,某些标记是无效的,例如,没有关闭。我找到的最佳解决方案是api (htmlCleaner网站)。
它允许您使您的html文件良好的格式。然后,在文档w3c或其他严格的格式文件中转换它就更容易了。
使用HtmlCleaner,您可以执行以下操作:
HtmlCleaner cleaner = new HtmlCleaner();
TagNode node = cleaner.clean(html);
DomSerializer ser = new DomSerializer(cleaner.getProperties());
Document myW3cDoc = ser.createDOM(node);我指的是来自from清洁剂的DomSerializer。
https://stackoverflow.com/questions/30692097
复制相似问题