首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >R中tidytext中的ngram分析

R中tidytext中的ngram分析
EN

Stack Overflow用户
提问于 2020-02-14 13:26:58
回答 1查看 256关注 0票数 0

我正在尝试做ngram分析,因为在tidytext中,我有一个770个演讲的语料库。然而,tidytext中的函数unnest_tokens将数据帧作为输入。当我检查示例(jane austin book )时,书中的每一行都存储为数据框中的行。我无法将语料库转换为数据帧,既不能一次转换一个语音,也不能一次转换所有语料库。

我如何使用语料库上的非嵌套标记对整形文本运行ngram (n=2,3等)分析。有没有人能提个建议?

谢谢

EN

回答 1

Stack Overflow用户

发布于 2020-02-14 14:35:41

你可以使用this.You的库ngram & tm,可以用你创建的语料库替换"myCorpus“。

代码语言:javascript
复制
library(tm)
library(ngarm)
myCorpus<-c("Hi How are you","Hello World","I love Stackoverflow","Good Bye All")
ng <- ngram (myCorpus , n =2)
get.phrasetable (ng)

如果您想对语料库进行标记化并将其转换为dataframe,则使用以下代码。

代码语言:javascript
复制
 tokenizedCorpus <- lapply(myCorpus, scan_tokenizer)
 mydata <- data.frame(text = sapply(tokenizedCorpus, paste, collapse = " "),stringsAsFactors = FALSE)
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/60220469

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档