我正在使用pepa函数来提取pdf文档中包含单词“人工智能”的段落。但是,我不会提取包含这些单词的所有段落。我错过的要少得多。它不能从文档的末尾提取这些内容。
library(textreadr)
library(tidyverse)
library(pdfsearch)
dirct <- directory_path
result <- keyword_directory(dirct, keyword = 'Artificial Intelligence', split_pdf = TRUE, surround_lines = 0, full_names = TRUE)我只有22次提到,但是有大约40次提到这个关键字(人工智能)
这是为了什么?
发布于 2020-10-12 17:12:47
您可能想要为数据帧尝试grepl示例:
data_frame <- read.csv2(...)
data_frame <- mutate(data_frame, columx = 0)
data_frame$columx[grepl("artificial intelligence", data_frame$columx, ignore.case = TRUE)] <- 1正如ignore.case所指出的,您还应该考虑词内连字符等。
如果源文件是PDF,请尝试创建语料库(VCorpus)并将语料库转换为文档术语矩阵DocumentTermMatrix
https://stackoverflow.com/questions/64045142
复制相似问题