我尝试了pdftools和tabulizer的软件包。此外,它生成的字符向量包含的元素与页面相同,相反,tabulizer的函数很好地处理了两列结构,但是会产生(在许多情况下)不正确的结果(例如下面的例子)。基于堆栈溢出的另一篇文章,我构建了以下基于tabulizer的函数,因为它处理PDF的两列结构,并输出包含存储在单独元素中的所有页面的向量: # Initialize a list
L <- vector(mode = "list", le
我尝试使用tabulizer包,它可以将表提取到一个很大的列表中。我想更进一步,清理这些表(它们都是不同的)并将它们放入tibble (或data.frame)中。#incase you don't have the tabulizer package, the below is neededlibrary(rJava) # load and attach 'rJava' now
install.packages("devtools")