我正在尝试做ngram分析,因为在tidytext中,我有一个770个演讲的语料库。然而,tidytext中的函数unnest_tokens将数据帧作为输入。当我检查示例(jane austin book )时,书中的每一行都存储为数据框中的行。我无法将语料库转换为数据帧,既不能一次转换一个语音,也不能一次转换所有语料库。
我如何使用语料库上的非嵌套标记对整形文本运行ngram (n=2,3等)分析。有没有人能提个建议?
谢谢
发布于 2020-02-14 14:35:41
你可以使用this.You的库ngram & tm,可以用你创建的语料库替换"myCorpus“。
library(tm)
library(ngarm)
myCorpus<-c("Hi How are you","Hello World","I love Stackoverflow","Good Bye All")
ng <- ngram (myCorpus , n =2)
get.phrasetable (ng)如果您想对语料库进行标记化并将其转换为dataframe,则使用以下代码。
tokenizedCorpus <- lapply(myCorpus, scan_tokenizer)
mydata <- data.frame(text = sapply(tokenizedCorpus, paste, collapse = " "),stringsAsFactors = FALSE)https://stackoverflow.com/questions/60220469
复制相似问题