首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何以编程方式将PDF转换为HTML?

如何以编程方式将PDF转换为HTML?
EN

Stack Overflow用户
提问于 2010-03-25 22:17:33
回答 3查看 3.3K关注 0票数 1

是否有任何类、COM对象、命令行实用程序或其他我可以为之创建API的工具,可以将PDF转换为HTML文档?显然,转换可能有点粗糙,因为PDF可以包含比HTML所能描述的更多的内容。我在Source上找到了一个名为pdftohtml的实用工具,但老实说,它在转换过程中做了一个可怕的工作。我不在乎这个软件是免费的还是商业化的,但是有什么东西我可以和我自己的软件结合起来,至少很体面地进行这种转换吗?我知道Google开发了他们自己的方法,因为你可以通过Gmail在附在邮件上的PDF上点击“查看作为HTML”,但是我希望能有一些东西提供给公众。

记住,PDF到HTML。我不担心HTML到PDF。

EN

回答 3

Stack Overflow用户

发布于 2010-03-25 22:38:16

我能想到的一个解决方案是编写一个小程序,用名为iText的库读取pdf文本,然后生成html文件。

票数 0
EN

Stack Overflow用户

发布于 2010-03-28 23:52:50

好吧,对于基于java的PDF,solutions...we没有一个干净的方式,我想所有的解决方案都是原始的和某种解决办法..。设计一个PDF 2的模板,然后在运行时使用java,使用xml或其他数据源将数据填充到这个template...either中.

这样一个简单的要求,没有一个有一个好的“开放源码和免费”解决方案!

月食比接近..。但不处理条形码元素..OOB。

票数 0
EN

Stack Overflow用户

发布于 2015-12-30 10:26:01

您正在寻找pdf2htmlEX (C++),它可以在不丢失文本或格式的情况下将PDF转换为HTML。

为了进一步转换为语义HTML,您可以使用我的项目文字记录 (Python)处理文字记录输出。然而,它不再是无损的,在不偏离常规视觉布局的文档上工作得最好。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/2519822

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档