利用lda主题分析,如何能够对lda算法的性能进行度量?
library(topicmodels)
# parameters for Gibbs sampling
burnin <- 4000
iter <- 2000
thin <- 500
seed <-list(1969,5,25,102855,2012)
nstart <- 5
best <- TRUE
#Number of topics
k <- 10
library(topicmodels)
data("AssociatedPress", package = "topicmodels")
#Run LDA with Gibbs
ldaOut <-LDA(AssociatedPress[1:20,], k, method="Gibbs", control=list(nstart=nstart, seed = seed, best = best, burnin =
burnin, iter = iter, thin=thin)) 例如,是否有任何类型的精确性、召回或F-度量?
发布于 2019-08-18 08:50:46
请注意,LDA是一种无监督的学习算法,因此不可能获得像F1分数或准确性这样的度量,因为我们无法将它与真正的标签进行比较。因此,通常通过比较概率模型在训练过程中的分布和测试集的对数似然度来评估算法的性能。
最常见的监测LDA性能的指标是困惑和。该模型具有较高的对数似然性和较低的困惑度,是一种较好的模型.
在topicmodels库中,您可以找到perplexity和logLik函数来提取这两个度量。在您的例子中,它将类似于:
perplexity(ldaOut, newdata = AssociatedPress[1:20,]) 对于计算logLik,您需要从合适的模型中传递Gibs列表,请看这里的文档(pg8):https://cran.r-project.org/web/packages/topicmodels/topicmodels.pdf
https://stackoverflow.com/questions/57542504
复制相似问题