我使用以下代码对文档进行主题建模:
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
tfidf_vectorizer = TfidfVectorizer(tokenizer=tokenize, max_df=0.85, min_df=3, ngram_range=(1,5))
tfidf = tfidf_vectorizer.fit_transform(docs)
tfidf_feature_names = tfidf_vectorizer.get_feature_names()
from sklearn.decomposition import NMF
no_topics = 50
%time nmf = NMF(n_components=no_topics, random_state=11, init='nndsvd').fit(tfidf)
topic_pr= nmf.transform(tfidf)我认为topic_pr给出了每个文档不同主题的概率分布。换句话说,我预计输出(Topic_pr)中的数字是X行中的文档属于模型中50个主题的概率。但是,这些数字并没有增加到1,这真的是概率吗?如果没有,有没有办法将它们转化为概率?
谢谢
发布于 2017-10-10 07:22:58
NMF返回一个非负因式分解,与概率无关(据我所知)。如果你只想要概率,你可以转换NMF (L1正常化)的输出。
probs = topic_pr / topic_pr.sum(axis=1, keepdims=True)这假设topic_pr是一个非负矩阵,这在您的情况下是正确的。
编辑:显然有一个概率版本的NMF。
引用[医]斯克勒普氏
非负矩阵因式分解有两种不同的目标函数: Frobenius范数和广义Kullback-Leibler散度.后者等价于概率潜在语义索引。
要从相同的链接中应用后者(这似乎是您所需要的):
lda = LatentDirichletAllocation(n_components=no_topics, max_iter=5)
topic_pr = lda.fit_transform(tfidf)https://stackoverflow.com/questions/46660656
复制相似问题