我想使用IcePDF或PDFBox从PDF中提取内容。但我现在不知道如何继续从提取的文本和图像生成HTML网页。
发布于 2012-12-26 18:30:32
你可以用PDFBox把pdf转换成html。试试this link。
通过在提取文本时添加-html作为参数,您将获得pdf的html。但它不会包含任何图像,图形和其他细节。它将只是以html格式从pdf中提取的文本。
如果你想创建精确的pdf外观,在PDFBox中没有单步方法。据我所知,没有一个库提供这样的工具来创建pdf的精确html。但是使用PDFBox,你可以提取图像、文本及其细节。使用这些细节,您必须创建一个逻辑来生成html。我们已经做了一个项目,以转换为azzist.com的pdf格式的html。我们已经使用PDFBox完成了转换。在azzist中,我们将简历转换为html格式。(仍然存在一些字体问题)。
Scribd,google,dropbox,zoho等已经以更好的方式完成了这一转换。你可以看看这些网站中的任何一个,看看他们是如何做到这一点的。(你不会明白其中的逻辑。你必须找到它)。
https://stackoverflow.com/questions/14023362
复制相似问题