在尝试使用XMLWorkerHelper.GetInstance().ParseXHTML()时,我发现它真的很严格。任何错误的标签顺序或未关闭的标签都会导致抛出异常。
我正在转换我无法控制的HTML。
有没有什么标志可以让它不那么严格?一个输入回调接口来处理有趣的标记?在itextsharp.tools.xml.html有什么发现吗?或者是一个与itextsharp.text.IElement兼容的全新的库?
发布于 2012-03-26 21:22:13
整个流水线都是基于这样的假设:传入一个有效的XML文档,其他的都会抛出异常。您可以自定义管道,并为链接解析、自定义CSS属性和新的HTML标记添加自己的处理程序,但核心文档处理器仍然需要有效的HTML。
我建议你调查一下running your HTML through a library that can convert it to XHTML。
编辑
也可以查看wkhtmltopdf。它使用webkit来呈现HTML,并且(显然)做得很好。
https://stackoverflow.com/questions/9849370
复制相似问题