有什么方法可以将PDF转换为HTML?它可以是任何东西-在线服务,软件,图书馆。(最好使用开源软件。在最后一种情况下,最好使用php或python。)它必须保留原始布局(包括页码、脚注等),保留图像(将它们合并为每页一个背景图像是可以接受的),并保留链接。它应该更好地输出有效的XHTML和清理PDF功能,如连字,但如果有一些后处理需要,我可以接受。具有干净的、相对语义化的HTML输出的东西会更好。
我找到的最接近的是zamzar.org,但它被链接卡住了。(此外,HTML输出是一个由绝对定位的div组成的丑陋的堆,由于编码问题,需要进行后处理。)
发布于 2010-05-08 22:05:33
我使用的是iText库,我发现它可以很好地解析PDF结构(我用它来搜索文本)。它是一个解析PDF并从中创建对象模型的库,因此您需要编写HTML生成器的代码,但这应该不会太难。
发布于 2016-01-04 06:12:32
使用PDFtoHTMLEx处理PDF,它生成像素完美的表示式HTML标记(定位的div)。
要获得语义超文本标记语言,可以使用transcript.py (我是作者)对文档进行后期处理。这会产生语义HTML,包括标题、段落、列表和数据表。请记住,标记是重新构造的(而不是提取的),因为python代码正在寻找视觉设计约定,并根据布局做出决定。结构标签和语义信息通常不会出现在PDF中。
发布于 2010-05-08 21:56:47
几年前,我还在使用ABBYY PDF Transformer,对于简单的文档来说,它很不错
https://stackoverflow.com/questions/2794269
复制相似问题