我正在做一个有大量文档的结构化主题模型。该语料库是从超过2500 pdf文件,自然,它需要很长的时间来处理这些。然而,我可以看到,如果我排除一些非常大的文件(有些高达100 MBs,尽管大多数在2-5MB范围内),它是如此快。
因此,我正在寻找一种以编程方式压缩R中文件的方法--例如,可以删除PDF中的图像吗?
有人能给我指明正确的方向吗?任何帮助都是非常感谢的。
发布于 2021-12-17 13:46:54
您只能从那些PDF中提取文本,保存到文件中,然后使用它们进行进一步的处理。
library(pdftools)
pdf_files <- list.files("PDF_FOLDER", "(?i)\\.pdf$")
for(pdf in pdf_files) {
txt <- pdf_text(pdf)
writeLines(txt, "FILENAME BUILT FROM pdf")
}https://stackoverflow.com/questions/70391591
复制相似问题