在任何通用语言中,有什么好的库可以将PDF转换为HTML?
发布于 2009-11-24 01:47:53
apache的PDFBox具有html提取功能。http://pdfbox.apache.org/
发布于 2009-10-30 03:01:16
如果你在Windows box上工作,我想Amyuni也有一个这样的库。他们的PDF文档转换器可以作为DLL访问,可以在Visual Studio支持的语言中广泛使用,并可以转换为RTF、TML、EXCEL、JPEG和TIFF。
发布于 2010-10-04 15:56:44
pdftohtml程序将pdf转换为html和xml,并保留文本的位置信息,这有助于抓取表格。
它似乎基于xpdf库,并且也有一个windows二进制文件。
https://stackoverflow.com/questions/1638937
复制相似问题