文章/答案/技术大牛

发布

社区首页 >问答首页 >使用关键字directory ()函数。它不会使用R执行正确的计数

问使用关键字directory ()函数。它不会使用R执行正确的计数
EN

Stack Overflow用户

提问于 2020-09-24 19:04:54

回答 1查看 47关注 0票数 0

我正在使用pepa函数来提取pdf文档中包含单词“人工智能”的段落。但是，我不会提取包含这些单词的所有段落。我错过的要少得多。它不能从文档的末尾提取这些内容。

library(textreadr)
library(tidyverse)
library(pdfsearch)

dirct <- directory_path
result <- keyword_directory(dirct, keyword = 'Artificial Intelligence', split_pdf = TRUE, surround_lines = 0, full_names = TRUE)

例如，在此文件中：https://www.telefonica.com/documents/153952/13347920/2019-Telefonica-Consolidated-Management-Report.pdf/0a9c8382-c9ff-ba52-1d5b-e431a7efab3f

我只有22次提到，但是有大约40次提到这个关键字(人工智能)

这是为了什么？

pdf

text-mining

回答 1

Stack Overflow用户

发布于 2020-10-12 17:12:47

您可能想要为数据帧尝试grepl示例：

data_frame <- read.csv2(...)

data_frame <- mutate(data_frame, columx = 0)

data_frame$columx[grepl("artificial intelligence", data_frame$columx, ignore.case = TRUE)] <- 1

正如ignore.case所指出的，您还应该考虑词内连字符等。

如果源文件是PDF，请尝试创建语料库(VCorpus)并将语料库转换为文档术语矩阵DocumentTermMatrix

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/64045142

复制

相似问题

问使用关键字directory ()函数。它不会使用R执行正确的计数
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用关键字directory ()函数。它不会使用R执行正确的计数EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用关键字directory ()函数。它不会使用R执行正确的计数
EN