文章/答案/技术大牛

发布

社区首页 >问答首页 >用Java将html字符串转换为org.w3c.dom.Document

问用Java将html字符串转换为org.w3c.dom.Document
EN

Stack Overflow用户

提问于 2015-06-07 09:44:16

回答 1查看 2.1K关注 0票数 2

将HTML字符串转换为

org.w3c.dom.Document

我在用

jtidy-r938.jar

这是我的代码：

public static Document getDoc(String html) {
        Tidy tidy = new Tidy();
        tidy.setInputEncoding("UTF-8");
        tidy.setOutputEncoding("UTF-8");
        tidy.setWraplen(Integer.MAX_VALUE);
        // tidy.setPrintBodyOnly(true);
        tidy.setXmlOut(false);
        tidy.setShowErrors(0);
        tidy.setShowWarnings(false);
        // tidy.setForceOutput(true);
        tidy.setQuiet(true);
        Writer out = new StringWriter();
        PrintWriter dummyOut = new PrintWriter(out);
        tidy.setErrout(dummyOut);
        tidy.setSmartIndent(true);
        ByteArrayInputStream inputStream = new ByteArrayInputStream(html.getBytes());
        Document doc = tidy.parseDOM(inputStream, null);
        return doc;
    }

但是有时库工作不正确，一些标签丢失了。

请告诉一个好的开放图书馆来完成这项任务。

非常感谢！

java

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-06-07 11:02:49

你不知道为什么有时图书馆没有给出好的结果。尽管如此，我经常使用html文件，从中提取数据，遇到的主要问题是，某些标记是无效的，例如，没有关闭。我找到的最佳解决方案是api (htmlCleaner网站)。

它允许您使您的html文件良好的格式。然后，在文档w3c或其他严格的格式文件中转换它就更容易了。

使用HtmlCleaner，您可以执行以下操作：

HtmlCleaner cleaner = new HtmlCleaner();
TagNode node = cleaner.clean(html);
DomSerializer ser = new DomSerializer(cleaner.getProperties());
Document myW3cDoc = ser.createDOM(node);

我指的是来自from清洁剂的DomSerializer。

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/30692097

复制

相似问题

问用Java将html字符串转换为org.w3c.dom.Document
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用Java将html字符串转换为org.w3c.dom.DocumentEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用Java将html字符串转换为org.w3c.dom.Document
EN