文章/答案/技术大牛

发布

问使用NMF的主题概率分布
EN

Stack Overflow用户

提问于 2017-10-10 07:14:42

回答 1查看 1.6K关注 0票数 4

我使用以下代码对文档进行主题建模：

from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
tfidf_vectorizer = TfidfVectorizer(tokenizer=tokenize, max_df=0.85, min_df=3, ngram_range=(1,5))

tfidf = tfidf_vectorizer.fit_transform(docs)
tfidf_feature_names = tfidf_vectorizer.get_feature_names()


from sklearn.decomposition import NMF

no_topics = 50

%time nmf = NMF(n_components=no_topics, random_state=11,  init='nndsvd').fit(tfidf)
topic_pr= nmf.transform(tfidf)

我认为topic_pr给出了每个文档不同主题的概率分布。换句话说，我预计输出(Topic_pr)中的数字是X行中的文档属于模型中50个主题的概率。但是，这些数字并没有增加到1，这真的是概率吗？如果没有，有没有办法将它们转化为概率？

谢谢

nmf

scikit-learn

topic-modeling

回答 1

Stack Overflow用户

发布于 2017-10-10 07:22:58

NMF返回一个非负因式分解，与概率无关(据我所知)。如果你只想要概率，你可以转换NMF (L1正常化)的输出。

probs = topic_pr / topic_pr.sum(axis=1, keepdims=True)

这假设topic_pr是一个非负矩阵，这在您的情况下是正确的。

编辑:显然有一个概率版本的NMF。

引用[医]斯克勒普氏

非负矩阵因式分解有两种不同的目标函数: Frobenius范数和广义Kullback-Leibler散度.后者等价于概率潜在语义索引。

要从相同的链接中应用后者(这似乎是您所需要的)：

lda = LatentDirichletAllocation(n_components=no_topics, max_iter=5)
topic_pr = lda.fit_transform(tfidf)

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/46660656

复制

相似问题

问使用NMF的主题概率分布
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用NMF的主题概率分布EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用NMF的主题概率分布
EN