首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >将dfm转换为DocumentTermMatrix

将dfm转换为DocumentTermMatrix
EN

Stack Overflow用户
提问于 2018-01-28 12:08:09
回答 1查看 191关注 0票数 0

有一个这样的数据文件:

代码语言:javascript
复制
df <- structure(list(text = c("Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa. Cum sociis natoque penatibus et magnis dis parturient montes, nascetur ridiculus mus. Donec quam felis, ultricies nec, pellentesque eu, pretium quis, sem. Nulla consequat massa quis enim. Donec pede justo, fringilla vel, aliquet nec, vulputate eget, arcu. In enim justo, rhoncus ut, imperdiet a, venenatis vitae, justo. Nullam dictum felis eu pede mollis pretium. Integer tincidunt. Cras dapibus. Vivamus elementum semper nisi. Aenean vulputate eleifend tellus. Aenean leo ligula, porttitor eu, consequat vitae, eleifend ac, enim. Aliquam lorem ante, dapibus in, viverra quis, feugiat a, tellus. ", 
                              "Nam quam nunc, blandit vel, luctus pulvinar, hendrerit id, lorem. Maecenas nec odio et ante tincidunt tempus. Donec vitae sapien ut libero venenatis faucibus. Nullam quis ante. Etiam sit amet orci eget eros faucibus tincidunt. Duis leo. Sed fringilla mauris sit amet nibh. Donec sodales sagittis magna. Sed consequat, leo eget bibendum sodales, augue velit cursus nunc", 
                              "Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa. Cum sociis natoque penatibus et magnis dis parturient montes, nascetur ridiculus mus. Donec quam felis, ultricies nec, pellentesque eu, pretium quis, sem. Nulla consequat massa quis enim. Donec pede justo, fringilla vel, aliquet nec, vulputate eget, arcu. In enim justo, rhoncus ut, imperdiet a, venenatis vitae, justo. Nullam dictum felis eu pede mollis pretium. Integer tincidunt. Cras dapibus. Vivamus elementum semper nisi. Aenean vulputate eleifend tellus. Aenean leo ligula, porttitor eu, consequat vitae, eleifend ac, enim. Aliquam lorem ante, dapibus in, viverra quis, feugiat a, tellus. ", 
                              "Nam quam nunc, blandit vel, luctus pulvinar, hendrerit id, lorem. Maecenas nec odio et ante tincidunt tempus. Donec vitae sapien ut libero venenatis faucibus. Nullam quis ante. Etiam sit amet orci eget eros faucibus tincidunt. Duis leo. Sed fringilla mauris sit amet nibh. Donec sodales sagittis magna. Sed consequat, leo eget bibendum sodales, augue velit cursus nunc"
)), .Names = "text", class = "data.frame", row.names = c(NA, 
                                                         -4L))

可以使用以下代码:

代码语言:javascript
复制
library(tm)
library(dplyr)
library(stringi)
review_source <-  VectorSource(df$text)
corpus <- VCorpus(review_source)
dtm <- DocumentTermMatrix(corpus)
temp_frequency <- inspect(dtm)
freq_matrix <- data.frame(ST = colnames(temp_frequency),
                          Freq = colSums(temp_frequency))

但是,前面的内容只给了我一个令牌。

使用quanteda的dfm()可以拥有多个令牌。示例:

代码语言:javascript
复制
library(quanteda)
myDfm <- dfm(df$text, ngrams = c(1,3))

我的问题是如何使dfm在以下命令中成为dtm,就像前面的命令一样:

代码语言:javascript
复制
temp_frequency <- inspect(dtm)
    freq_matrix <- data.frame(ST = colnames(temp_frequency),
                              Freq = colSums(temp_frequency))
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-01-28 12:59:58

要使"a“dfm在您的示例中成为dtm,相同的命令将起作用:

代码语言:javascript
复制
temp_frequency2 <- as.dfm(temp_frequency)
freq_matrix <- data.frame(ST = colnames(temp_frequency2),
                          Freq = colSums(temp_frequency2))
freq_matrix
#                  ST Freq
# aenean       aenean    8
# amet           amet    4
# consequat consequat    4
# donec         donec    8
# eget           eget    6
# eleifend   eleifend    4
# enim.         enim.    4
# eu,             eu,    4
# fringilla fringilla    4
# sit             sit    6

不过,我更喜欢推荐featnames()而不是colnames()

若要将myDfm转换为此格式,请执行以下操作:

代码语言:javascript
复制
myDfm <- dfm(df$text, ngrams = c(1,3))
freq_matrix <- data.frame(ST = featnames(myDfm),
                          Freq = colSums(myDfm))  
head(freq_matrix)
#          ST Freq
# lorem lorem    6
# ipsum ipsum    2
# dolor dolor    4
# sit     sit    6
# amet   amet    6
# ,         ,   56

要获得更多的结构,包括按下降频率加上等级和文档频率进行排序,请尝试:

代码语言:javascript
复制
head(textstat_frequency(myDfm))
#   feature frequency rank docfreq group
# 1       ,        56    1       4   all
# 2       .        46    2       4   all
# 3  aenean         8    3       2   all
# 4    eget         8    4       4   all
# 5   donec         8    5       4   all
# 6    quis         8    6       4   all
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/48486183

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档