我使用Foxit从Pdf文档中提取文本。
一切都很好,但是当我用其他语言而不是英语提取pdf时,我没有得到正确的输出。
我也在java中使用过PDFBox,但这给了我最糟糕的输出,Foxit的输出要比PDFBox好。
还有其他图书馆可以解决这个问题吗?或者还有其他的解决办法。
发布于 2012-01-27 06:05:51
就你个人而言,如果你想把它做好,你必须为此付出代价。ComponentOne有一个用于WPF的PDFViewer。不确定您使用的是哪个框架,因为您的标记缺少一个。
用于WPF的ComponentOne PDF查看器
发布于 2012-01-27 11:43:21
您可能需要尝试Quick库的试用版,以了解它如何在文档上执行。http://www.quickpdflibrary.com
QP.GetPageText(7)或GetPageText(8)为大多数PDF文件返回了相当好的结果。
安德鲁。
免责声明:我为Quick库做了一些咨询工作。
发布于 2013-04-16 12:49:59
如果您在windows上,可以使用adobe提供的IFilter。我使用了adobe阅读器8提供的IFilter adobe。
http://www.codeproject.com/Articles/13391/Using-IFilter-in-C
演出还不错(我想。我没有使用过很多其他方法)。400页PDF大约需要15秒。
https://stackoverflow.com/questions/9029475
复制相似问题