首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用pdftools逐段解析PDF

用pdftools逐段解析PDF
EN

Stack Overflow用户
提问于 2017-09-29 14:54:12
回答 1查看 1.4K关注 0票数 2

我试图在R中逐段解析PDF文档,我将PDF保存在本地机器上。因此,请从苹果网站下载样本pdf。

代码语言:javascript
复制
require(pdftools)

apple <- pdf_text('apple.pdf')

apple[[26]]

问题是,如果我们检查第26页,每一行都以“\r\n”结尾。这与第一段末尾(斜体字)与概述和重点段落之间的\r\n没有什么不同。在PDF中,看起来跳过了2行,但R中的对象并不反映这一点。

我不知道这是否是这个特定包的一个功能,或者实际上,将文本转换为文本是否消除了这些段落标记。我无法使用其他方法设置导入(例如。使用tm软件包)

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-09-29 18:46:34

我认为它是文档的底层属性(而不是一般文本转换过程或pdftools的基础属性)。

如果您使用鼠标选择跨段落中断的文本,它不会选择空行,这意味着它们是PDF布局元数据的一部分,而不是文本本身(尽管我实际上对PDF文件规范一无所知):

您最好的选择可能是提出启发式规则集来识别段落中断。我在想:

  • 前一行以句点结束\r\n
  • 段落标题行短,结束时没有句号,则\r\n
  • 段落的第一句以大写字母开头,并占据整行。
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/46491501

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档