问如何自动将PDF转换为HTML？
EN

Stack Overflow用户

提问于 2013-07-04 00:25:33

回答 1查看 583关注 0票数 3

我尝试过pdftohtml、pdftotext、pdfminer和其他基于Python的方法来获取内容，以及从原始Acrobat文件保存到Word、HTML、XML等。

我不仅需要文本，我还需要文本格式。例如，这是因为我需要文档中的所有蓝色文本。

当我从Acrobat保存为HTML、Word等格式时，生成的文件包含页面的屏幕截图，而不是布局的文本。

我找到的唯一解决方案是手动从PDF复制并粘贴到word文档中，然后保存为HTML。我希望能让这一切自动化。

以前有没有人遇到过这个问题？

发布于 2013-08-06 17:25:24

也许你可以考虑另一种方法。该软件(https://pdfapi.codeplex.com/)可以通过MVS直接将pdf文件转换为html。如果你能使用MVS，我认为我上面提到的软件对你将pdf文件中的文本转换成html是有用的，它可以完美地保持格式。当然，这只是一个推荐，你可以试一试。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/17453302

复制

相似问题

问如何自动将PDF转换为HTML？EN