在这个问题上我完全不知所措。我读了很多关于它的文章,所以,如果有人能把我推向正确的方向,我会非常感激的。
我有一个PDF,我想提取它的文本,我只对文字和空格感兴趣。我已经设置了一个CGPDFScanner,它是回调方法。我所读到的是,我只需要考虑4个操作符TJ,Tj,qout(')和doubleqout(‘)就可以提取文本。
我想我还需要跟踪文本空间,以便能够确定字母是应该放在一起形成一个单词,还是应该由一个空格分隔。但我不知道我该怎么做。
在PDF中,所有文本都是格式的。
[(X)-24.2524(X)-24.2524(X)-24.2524(Y)-24.2524(Y)-24.2524]TJ但我还没有弄清楚(使用PDF规范)这些数字意味着什么。有人这样说,你不应该害怕PDF规格,但坦率地说,我不觉得它们很容易阅读/理解。
我研究了PDFKitten代码,这是很有帮助的。
任何帮助都将不胜感激。
发布于 2012-09-17 18:39:45
我不能给你建议如何从PDF中提取单词,但是格式是
[(X)-24.2524(X)-24.2524(X)-24.2524(Y)-24.2524(Y)-24.2524]TJ例如,在PDF1.7规格说明的"9.4.3文本显示操作符“一节中对此进行了解释。TJ操作符的描述如下:
显示一个或多个文本字符串,允许单独的字形定位。数组中的每个元素要么是字符串,要么是数字。如果元素是字符串,则此运算符将显示该字符串。如果是数字,操作者应按该数量调整文本位置;也就是说,它应翻译文本矩阵Tm。该数字应以千分之一的文本空间表示。
因此,数字是对字母之间距离的调整。
https://stackoverflow.com/questions/12465034
复制相似问题