我尝试过pdftohtml、pdftotext、pdfminer和其他基于Python的方法来获取内容,以及从原始Acrobat文件保存到Word、HTML、XML等。
我不仅需要文本,我还需要文本格式。例如,这是因为我需要文档中的所有蓝色文本。
当我从Acrobat保存为HTML、Word等格式时,生成的文件包含页面的屏幕截图,而不是布局的文本。
我找到的唯一解决方案是手动从PDF复制并粘贴到word文档中,然后保存为HTML。我希望能让这一切自动化。
以前有没有人遇到过这个问题?
发布于 2013-08-06 17:25:24
也许你可以考虑另一种方法。该软件(https://pdfapi.codeplex.com/)可以通过MVS直接将pdf文件转换为html。如果你能使用MVS,我认为我上面提到的软件对你将pdf文件中的文本转换成html是有用的,它可以完美地保持格式。当然,这只是一个推荐,你可以试一试。
https://stackoverflow.com/questions/17453302
复制相似问题