我正在寻找一个库(如果可能的话,在Java或PHP中可用),以便从PDF中提取文本。有许多可用的软件,包括:
http://www.pdf-tools.com/pdf/pdf-extract-content-metadata-text.aspx
你会选择哪种工具?你觉得他们怎么样?
非常感谢您的帮助!
发布于 2010-09-23 11:12:49
我最喜欢的是iText (java),但是从PDF中提取文本可能充满困难,因为PDF中的文本并不总是按照显示的顺序存储。
发布于 2013-11-03 03:26:11
itext在正确提取irs i1040.pdf中的文本时遇到了问题,如下文所述:
<1> article.gmane.org/gmane.comp.java.lib.itext.general/65680
据我所知,当字体被嵌入时,并不总是能够提取出正确的文本。见: www.verypdf.com/wordpress/201109/pdf-to-text-converter-cant-extract-text-which-render-by-embedded-fonts-2452.html <2> <3>第9.10.1节: www.adobe.com/content/dam/Adobe/en/devnet/pdf/pdfs/PDF32000_2008.pdf
<3>说:
如果字体不是以下列方式之一定义的.如果没有其他信息,则无法将字符转换为Unicode值。
我假设“转换到unicode值”对于文本提取是必不可少的。
https://stackoverflow.com/questions/3759352
复制相似问题