首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从包含两列的PDF中很好地提取文本

从包含两列的PDF中很好地提取文本
EN

Stack Overflow用户
提问于 2020-09-18 20:03:25
回答 1查看 124关注 0票数 2

我正在尝试提取这些公司的年报文本。它的设计是在两列的大部分。所以我不知道如何正确地提取它,因为在使用pdftools包的R I中,我提取第一列的第一行紧邻第二列的第一行,而不是第一列的第二行。

这是我的代码:

代码语言:javascript
复制
library(pdftools)
readpdf<- pdf_text("https://www.telefonica.com/documents/153952/13347920/2019-Telefonica-Consolidated-Management-Report.pdf/0a9c8382-c9ff-ba52-1d5b-e431a7efab3f")

我如何才能正确地执行此操作?

EN

回答 1

Stack Overflow用户

发布于 2021-08-24 15:52:18

我的答案是使用像ABBY Fine reader或同等的OCR软件。我也尝试过使用R中提供的开源软件处理相同类型的数据,但它不能很好地满足我的目的

票数 -1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63955427

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档