首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >iOS PDF到纯文本解析器

iOS PDF到纯文本解析器
EN

Stack Overflow用户
提问于 2012-09-17 18:22:20
回答 1查看 813关注 0票数 2

在这个问题上我完全不知所措。我读了很多关于它的文章,所以,如果有人能把我推向正确的方向,我会非常感激的。

我有一个PDF,我想提取它的文本,我只对文字和空格感兴趣。我已经设置了一个CGPDFScanner,它是回调方法。我所读到的是,我只需要考虑4个操作符TJ,Tj,qout(')和doubleqout(‘)就可以提取文本。

我想我还需要跟踪文本空间,以便能够确定字母是应该放在一起形成一个单词,还是应该由一个空格分隔。但我不知道我该怎么做。

在PDF中,所有文本都是格式的。

代码语言:javascript
复制
[(X)-24.2524(X)-24.2524(X)-24.2524(Y)-24.2524(Y)-24.2524]TJ

但我还没有弄清楚(使用PDF规范)这些数字意味着什么。有人这样说,你不应该害怕PDF规格,但坦率地说,我不觉得它们很容易阅读/理解。

我研究了PDFKitten代码,这是很有帮助的。

任何帮助都将不胜感激。

EN

回答 1

Stack Overflow用户

发布于 2012-09-17 18:39:45

我不能给你建议如何从PDF中提取单词,但是格式是

代码语言:javascript
复制
[(X)-24.2524(X)-24.2524(X)-24.2524(Y)-24.2524(Y)-24.2524]TJ

例如,在PDF1.7规格说明的"9.4.3文本显示操作符“一节中对此进行了解释。TJ操作符的描述如下:

显示一个或多个文本字符串,允许单独的字形定位。数组中的每个元素要么是字符串,要么是数字。如果元素是字符串,则此运算符将显示该字符串。如果是数字,操作者应按该数量调整文本位置;也就是说,它应翻译文本矩阵Tm。该数字应以千分之一的文本空间表示。

因此,数字是对字母之间距离的调整。

票数 6
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/12465034

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档