首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用NMF的主题概率分布

使用NMF的主题概率分布
EN

Stack Overflow用户
提问于 2017-10-10 07:14:42
回答 1查看 1.6K关注 0票数 4

我使用以下代码对文档进行主题建模:

代码语言:javascript
复制
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
tfidf_vectorizer = TfidfVectorizer(tokenizer=tokenize, max_df=0.85, min_df=3, ngram_range=(1,5))

tfidf = tfidf_vectorizer.fit_transform(docs)
tfidf_feature_names = tfidf_vectorizer.get_feature_names()


from sklearn.decomposition import NMF

no_topics = 50

%time nmf = NMF(n_components=no_topics, random_state=11,  init='nndsvd').fit(tfidf)
topic_pr= nmf.transform(tfidf)

我认为topic_pr给出了每个文档不同主题的概率分布。换句话说,我预计输出(Topic_pr)中的数字是X行中的文档属于模型中50个主题的概率。但是,这些数字并没有增加到1,这真的是概率吗?如果没有,有没有办法将它们转化为概率?

谢谢

EN

回答 1

Stack Overflow用户

发布于 2017-10-10 07:22:58

NMF返回一个非负因式分解,与概率无关(据我所知)。如果你只想要概率,你可以转换NMF (L1正常化)的输出。

代码语言:javascript
复制
probs = topic_pr / topic_pr.sum(axis=1, keepdims=True)

这假设topic_pr是一个非负矩阵,这在您的情况下是正确的。

编辑:显然有一个概率版本的NMF。

引用[医]斯克勒普氏

非负矩阵因式分解有两种不同的目标函数: Frobenius范数和广义Kullback-Leibler散度.后者等价于概率潜在语义索引。

要从相同的链接中应用后者(这似乎是您所需要的):

代码语言:javascript
复制
lda = LatentDirichletAllocation(n_components=no_topics, max_iter=5)
topic_pr = lda.fit_transform(tfidf)
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/46660656

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档