问从包含两列的PDF中很好地提取文本
EN

Stack Overflow用户

提问于 2020-09-18 20:03:25

回答 1查看 124关注 0票数 2

我正在尝试提取这些公司的年报文本。它的设计是在两列的大部分。所以我不知道如何正确地提取它，因为在使用pdftools包的R I中，我提取第一列的第一行紧邻第二列的第一行，而不是第一列的第二行。

这是我的代码：

library(pdftools)
readpdf<- pdf_text("https://www.telefonica.com/documents/153952/13347920/2019-Telefonica-Consolidated-Management-Report.pdf/0a9c8382-c9ff-ba52-1d5b-e431a7efab3f")

我如何才能正确地执行此操作？

text-mining

pdftools

pdf

回答 1

Stack Overflow用户

发布于 2021-08-24 15:52:18

我的答案是使用像ABBY Fine reader或同等的OCR软件。我也尝试过使用R中提供的开源软件处理相同类型的数据，但它不能很好地满足我的目的

票数 -1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/63955427

复制

相似问题

问从包含两列的PDF中很好地提取文本
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从包含两列的PDF中很好地提取文本EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从包含两列的PDF中很好地提取文本
EN