我目前正在使用RStudio在支持票据上进行文本挖掘,根据它们的描述对它们进行聚类(freetext)。为此,我将kmeans与EM算法进行了比较。我用tm包准备了数据,现在我尝试将聚类算法应用于数据矩阵。
使用kmeans()函数,我可以使用以下代码片段输出文本集群中最常用的5个术语(kmeans21):
> for (i in 1:num_cluster) {
cat(paste("cluster ", i, ": ", sep = ""))
s <- sort(kmeans21$centers[i, ], decreasing = T)
cat(names(s)[1:5], "\n")
}到目前为止,我还找不到一个函数来在mclust包中做同样的事情。我的数据格式如下:
> bic21 <- MclustBIC(m1, G=21)
> emmodel21 <- summary(bic21, data = m1)使用命令
> emmodel21$classification我可以看到每个supportticket的集群,但是否也有可能输出最频繁的术语,就像第一个代码块中的kmeans一样?
发布于 2018-03-06 18:19:31
我想你可以试试
summary(mod1, parameters = TRUE)我刚刚在链接中尝试了相同的示例
library(mclust)
data(diabetes)
X <- diabetes[,-1]
BIC <- mclustBIC(X)
mod1 <- Mclust(X, x = BIC)
summary(mod1, parameters = TRUE)发布于 2018-06-14 02:06:36
稍微修改一下小插曲中的第一个示例:
data(diabetes)
X <- diabetes[,-1]
mod <- mclust(X)
means <- mod$parameters$meansmeans对象现在是一个包含簇均值的矩阵。
https://stackoverflow.com/questions/49126690
复制相似问题