文章/答案/技术大牛

发布

社区首页 >问答首页 >Gensim LDA主题分配

问Gensim LDA主题分配
EN

Stack Overflow用户

提问于 2016-10-11 03:07:18

回答 2查看 2.5K关注 0票数 12

我希望使用LDA将每个文档分配给一个主题。现在我意识到你得到的是来自LDA的主题的分布。但是，正如您从下面最后一行中看到的，我将其指定为最可能的主题。

我的问题是这个。为了获得这些主题，我不得不第二次运行lda[corpus]。还有其他内置的gensim函数可以直接给我这个主题赋值向量吗？特别是由于LDA算法已经通过文档，它可能已经保存了这些主题分配？

    # Get the Dictionary and BoW of the corpus after some stemming/ cleansing
    texts = [[stem(word) for word in document.split() if word not in STOPWORDS] for document in cleanDF.text.values]
    dictionary = corpora.Dictionary(texts)
    dictionary.filter_extremes(no_below=5, no_above=0.9)
    corpus = [dictionary.doc2bow(text) for text in texts]

    # The actual LDA component
    lda = models.LdaMulticore(corpus=corpus, id2word=dictionary, num_topics=30, chunksize=10000, passes=10,workers=4) 

    # Assign each document to most prevalent topic
    lda_topic_assignment = [max(p,key=lambda item: item[1]) for p in lda[corpus]]

lda

topic-modeling

gensim

回答 2

Stack Overflow用户

回答已采纳

发布于 2019-01-19 15:53:31

没有其他内置的Gensim函数可以直接给出主题赋值向量。

您的问题是，LDA算法已经通过文档传递，但是LDA的实现是通过块更新模型(基于chunksize参数的值)来实现的，因此它不会将整个语料库保存在内存中。

因此，您必须使用lda[corpus]或lda.get_document_topics()方法。

票数 3

Stack Overflow用户

发布于 2018-02-20 13:25:28

dictionary = corpora.Dictionary(texts)
corpus = [dictionary.doc2bow(text) for text in texts]


test =LDA[corpus[0]]
print(test)
sorted(test, reverse=True, key=lambda x: x[1])

Topics = ['Topic_'+str(sorted(LDA[i], reverse=True, key=lambda x: x[1])[0][0]).zfill(3) for i in corpus]

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/39969919

复制

相似问题

问Gensim LDA主题分配
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Gensim LDA主题分配EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Gensim LDA主题分配
EN