我试图在R中逐段解析PDF文档,我将PDF保存在本地机器上。因此,请从苹果网站下载样本pdf。
require(pdftools)
apple <- pdf_text('apple.pdf')
apple[[26]]问题是,如果我们检查第26页,每一行都以“\r\n”结尾。这与第一段末尾(斜体字)与概述和重点段落之间的\r\n没有什么不同。在PDF中,看起来跳过了2行,但R中的对象并不反映这一点。
我不知道这是否是这个特定包的一个功能,或者实际上,将文本转换为文本是否消除了这些段落标记。我无法使用其他方法设置导入(例如。使用tm软件包)
发布于 2017-09-29 18:46:34
我认为它是文档的底层属性(而不是一般文本转换过程或pdftools的基础属性)。
如果您使用鼠标选择跨段落中断的文本,它不会选择空行,这意味着它们是PDF布局元数据的一部分,而不是文本本身(尽管我实际上对PDF文件规范一无所知):

您最好的选择可能是提出启发式规则集来识别段落中断。我在想:
https://stackoverflow.com/questions/46491501
复制相似问题