java中的JPedal库通常用于将pdf转换为XML或HTML。然而,我需要知道我们是否可以使用JPedal库API从HTML5文档中提取数据并将其保存到XML?有没有其他可能的替代方案?
此外,我正在尝试使用Java解析HTML5文档,并将其存储在可扩展标记语言中。有没有什么好的解决方案可以只找到特定的标签并从中生成XML?
请务必让我知道。谢谢。
发布于 2011-10-06 04:13:51
市面上有许多Java HTML解析器,但我建议您使用validator.nu提供的HTML5解析器,可以从这里下载:http://about.validator.nu/htmlparser/。
HTML5的主要参与者之一Mozilla的Henri Sivonen编写了使用HTML5解析器算法的代码,您将找不到比这更可靠的解析器了,它创建了一个真正的DOM,可以使用标准的XML进行操作,并使用XPath查询超链接。有一些示例说明了如何对其使用XSLT转换,以及如何获得创建的DOM的XML序列化。
https://stackoverflow.com/questions/7666510
复制相似问题