问在实现了文本文件的主题建模之后，我得到了描述所有主题的类似单词，结果是不准确的。
EN

Stack Overflow用户

提问于 2016-10-21 03:53:22

回答 1查看 355关注 0票数 3

from nltk.tokenize import RegexpTokenizer
from stop_words import get_stop_words
from gensim import corpora, models 
import gensim
import os
from os import path
from time import sleep

tokenizer = RegexpTokenizer(r'\w+')
en_stop = set(get_stop_words('en'))
with open(os.path.join('c:\users\kaila\jobdescription.txt')) as f:
    Reader = f.read()


texts = unicode(Reader, errors='replace')
tdm = []

#Converted all the text to lowercase for uniform analysis
raw = texts.lower()
#Tokenized the text to individual terms and created the stop list
tokens = tokenizer.tokenize(raw)
stopped_tokens = [i for i in tokens if not i in en_stop]
tdm.append(stopped_tokens)

dictionary = corpora.Dictionary(tdm)
corpus = [dictionary.doc2bow(i) for i in tdm]
sleep(3)
#Implemented the LdaModel
ldamodel = gensim.models.ldamodel.LdaModel(corpus, num_topics=10, id2word = dictionary)
print(ldamodel.print_topics(num_topics=5, num_words=8))

问题是我的结果有相似的词语来描述所有的话题，而且概率太低了。我做错什么了吗？如果有人能帮助我取得更好的结果，那就太好了。

以下是我的成果：

(0，u‘0.019*威尔+0.010*经验+0.009*帐户+0.009*财务+0.008*会计+0.008*财务+0.008*团队+0.007*报告’)，(4，u‘0.016*威尔+0.009*财务+0.009*经验+0.008*管理+0.008*会计+0.007*角色+0.007*财务+0.007*工作)，(7，U‘0.017*威尔+0.013*经验+0.012*财务+0.008*角色+0.008*财务+0.007*会计+0.007*账户+0.007*年)，(2，u’0.019*将+0.011*经验+0.010*财务+0.008*角色+0.007*业务+0.007*帐户+0.007*报告+0.007*工作‘)，(5，U‘0.013*威尔+0.011*财务+0.011*经验+0.009*财务+0.008*管理+0.008*会计+0.008*角色+0.007*)

python-2.7

lda

topic-modeling

回答 1

Stack Overflow用户

发布于 2016-10-24 08:14:12

不，你没有做错什么，但你误解了输出。LDA为每个主题下的所有字典单词生成一个概率分布。主题的数量等于您想要的主题数。在这里，您提供的答案对我来说似乎是合乎逻辑的，因为您已经打印了主题5主题和每个主题下的主题8个单词，并给出了它们的概率值。顺便说一句，概率值可能很小，别担心。

这一输出的一个可能原因是:用于训练LDA模型的数据集不够多样，因此几个主题下的顶部单词几乎是相同的，这也表明推断的主题彼此非常接近。如果您期待的是多样化的主题，那么您需要一个具有良好代表性的数据来获取所需的主题数量。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/40168109

复制

相似问题

问在实现了文本文件的主题建模之后，我得到了描述所有主题的类似单词，结果是不准确的。
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在实现了文本文件的主题建模之后，我得到了描述所有主题的类似单词，结果是不准确的。EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在实现了文本文件的主题建模之后，我得到了描述所有主题的类似单词，结果是不准确的。
EN