文章/答案/技术大牛

发布

社区首页 >问答首页 >iOS PDF到纯文本解析器

问iOS PDF到纯文本解析器
EN

Stack Overflow用户

提问于 2012-09-17 18:22:20

回答 1查看 813关注 0票数 2

在这个问题上我完全不知所措。我读了很多关于它的文章，所以，如果有人能把我推向正确的方向，我会非常感激的。

我有一个PDF，我想提取它的文本，我只对文字和空格感兴趣。我已经设置了一个CGPDFScanner，它是回调方法。我所读到的是，我只需要考虑4个操作符TJ，Tj，qout(')和doubleqout(‘)就可以提取文本。

我想我还需要跟踪文本空间，以便能够确定字母是应该放在一起形成一个单词，还是应该由一个空格分隔。但我不知道我该怎么做。

在PDF中，所有文本都是格式的。

[(X)-24.2524(X)-24.2524(X)-24.2524(Y)-24.2524(Y)-24.2524]TJ

但我还没有弄清楚(使用PDF规范)这些数字意味着什么。有人这样说，你不应该害怕PDF规格，但坦率地说，我不觉得它们很容易阅读/理解。

我研究了PDFKitten代码，这是很有帮助的。

任何帮助都将不胜感激。

ios

pdf

text

extract

cgpdf

回答 1

Stack Overflow用户

发布于 2012-09-17 18:39:45

我不能给你建议如何从PDF中提取单词，但是格式是

[(X)-24.2524(X)-24.2524(X)-24.2524(Y)-24.2524(Y)-24.2524]TJ

例如，在PDF1.7规格说明的"9.4.3文本显示操作符“一节中对此进行了解释。TJ操作符的描述如下：

显示一个或多个文本字符串，允许单独的字形定位。数组中的每个元素要么是字符串，要么是数字。如果元素是字符串，则此运算符将显示该字符串。如果是数字，操作者应按该数量调整文本位置；也就是说，它应翻译文本矩阵Tm。该数字应以千分之一的文本空间表示。

因此，数字是对字母之间距离的调整。

票数 6

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/12465034

复制

相似问题

问iOS PDF到纯文本解析器
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问iOS PDF到纯文本解析器EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问iOS PDF到纯文本解析器
EN