首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在R中使用pdftools将一大批PDF文件转换为TXT文件?

如何在R中使用pdftools将一大批PDF文件转换为TXT文件?
EN

Stack Overflow用户
提问于 2017-09-20 22:52:27
回答 1查看 591关注 0票数 1

我正在尝试将大约600个填充了表格的pdf文件提取为文本格式,这样我就可以进行一些数据探索。看起来pdftool是我完成这项工作的最佳选择,但帮助文件很简短。我找到的最近的教程使用的是xpdf。有没有办法用pdftools做到这一点?

代码语言:javascript
复制
library("pdftools")
folder <- file.path("C:\\Users\\adarvishian\\Documents\\MEGA\\Consular 
Affairs\\Visa Statistics\\Scrape")
folder
length <- length(dir(folder))
length
dirpdf <- dir(folder)
dirpdf[1]


for(i in 1:length(dir(folder)))
{
   text <- pdf_text("C:\\Users\\adarvishian\\Documents\\MEGA\\Consular 
 Affairs\\Visa Statistics\\Scrape")
}

xpdf batch tutorial

EN

回答 1

Stack Overflow用户

发布于 2017-09-21 00:37:27

代码语言:javascript
复制
library("pdftools")

folder <- file.path("C:\\Users\\adarvishian\\Documents\\MEGA\\Consular 
Affairs", "Visa Statistics", "Scrape")
folder
length <- length(dir(folder))
length
dirpdf <- dir(folder)
dirpdf[1]

pdftotxt <- "C:\\Users\\adarvishian\\Documents\\R\\otherpackages\\xpdf-
tools-win-4.00\\xpdf-tools-win-4.00\\bin64\\pdftotext.exe"

for(i in 1:length(dir(folder)))
{
pdf <- file.path("C:\\Users\\adarvishian\\Documents\\MEGA\\Consular 
Affairs\\Visa Statistics", "Scrape", dirpdf[i])
system(paste("\"", pdftotxt, "\" \"", pdf, "\"", sep = ""),wait = F)
}
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/46325330

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档