我知道有人在这里问过一些类似的问题,但我看到了所有的问题,没有人能让我满意。
嗯,我试过xpdf和pdftohtml都很好,但旧的和新版本的PDF似乎不能工作。
我的问题是找到一种方法,可以让我转换任何PDF或文档到HTML,并保持样式和结构。如果有人拥有某样东西,甚至付出了完美的代价。
发布于 2011-08-31 01:16:50
好吧,我尝试了一些专门用于Linux的库,但这是我的中间结论。
PDFtoHTML太旧了,没有考虑到所有新的PDF规范,例如PDF1.7(主要是因为它使用了xpdf2.02,而xpdf已经在他的3版本中)
我发现继续PDFTOHTML开发的Poppler以及一些新的实用程序非常有用,而不是PDFtoHTML。实际上,在开源项目中,是波普尔更好地渲染了我复杂的PDF。我不得不用一个几乎相等的Here。
最后,这是我要用到的。ImageMagick + Poppler。我将转换我的PDF为图像,并使用PDFtoHTML的弹出器的XML输出在我的图像上添加一个新的层。
发布于 2011-12-02 16:47:13
像您一样,我也在寻找一种从PDF到HTML甚至更好的XHTML的自动转换工具。虽然只有两个方面,但毕竟http://www.pdfonline.com (Online PDF To HTML)为我做了最好的工作。它甚至能够过滤和正确显示表格和段落,而不仅仅是短语!
但这对我的工作来说还不够,所以我手动生成了一个模板文件。
https://stackoverflow.com/questions/7121478
复制相似问题