我正在尝试提取这些公司的年报文本。它的设计是在两列的大部分。所以我不知道如何正确地提取它,因为在使用pdftools包的R I中,我提取第一列的第一行紧邻第二列的第一行,而不是第一列的第二行。
这是我的代码:
library(pdftools)
readpdf<- pdf_text("https://www.telefonica.com/documents/153952/13347920/2019-Telefonica-Consolidated-Management-Report.pdf/0a9c8382-c9ff-ba52-1d5b-e431a7efab3f")我如何才能正确地执行此操作?
发布于 2021-08-24 15:52:18
我的答案是使用像ABBY Fine reader或同等的OCR软件。我也尝试过使用R中提供的开源软件处理相同类型的数据,但它不能很好地满足我的目的
https://stackoverflow.com/questions/63955427
复制相似问题