首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在实现了文本文件的主题建模之后,我得到了描述所有主题的类似单词,结果是不准确的。

在实现了文本文件的主题建模之后,我得到了描述所有主题的类似单词,结果是不准确的。
EN

Stack Overflow用户
提问于 2016-10-21 03:53:22
回答 1查看 355关注 0票数 3
代码语言:javascript
复制
from nltk.tokenize import RegexpTokenizer
from stop_words import get_stop_words
from gensim import corpora, models 
import gensim
import os
from os import path
from time import sleep

tokenizer = RegexpTokenizer(r'\w+')
en_stop = set(get_stop_words('en'))
with open(os.path.join('c:\users\kaila\jobdescription.txt')) as f:
    Reader = f.read()


texts = unicode(Reader, errors='replace')
tdm = []

#Converted all the text to lowercase for uniform analysis
raw = texts.lower()
#Tokenized the text to individual terms and created the stop list
tokens = tokenizer.tokenize(raw)
stopped_tokens = [i for i in tokens if not i in en_stop]
tdm.append(stopped_tokens)

dictionary = corpora.Dictionary(tdm)
corpus = [dictionary.doc2bow(i) for i in tdm]
sleep(3)
#Implemented the LdaModel
ldamodel = gensim.models.ldamodel.LdaModel(corpus, num_topics=10, id2word = dictionary)
print(ldamodel.print_topics(num_topics=5, num_words=8))

问题是我的结果有相似的词语来描述所有的话题,而且概率太低了。我做错什么了吗?如果有人能帮助我取得更好的结果,那就太好了。

以下是我的成果:

(0,u‘0.019*威尔+0.010*经验+0.009*帐户+0.009*财务+0.008*会计+0.008*财务+0.008*团队+0.007*报告’),(4,u‘0.016*威尔+0.009*财务+0.009*经验+0.008*管理+0.008*会计+0.007*角色+0.007*财务+0.007*工作),(7,U‘0.017*威尔+0.013*经验+0.012*财务+0.008*角色+0.008*财务+0.007*会计+0.007*账户+0.007*年),(2,u’0.019*将+0.011*经验+0.010*财务+0.008*角色+0.007*业务+0.007*帐户+0.007*报告+0.007*工作‘),(5,U‘0.013*威尔+0.011*财务+0.011*经验+0.009*财务+0.008*管理+0.008*会计+0.008*角色+0.007*)

EN

回答 1

Stack Overflow用户

发布于 2016-10-24 08:14:12

不,你没有做错什么,但你误解了输出。LDA为每个主题下的所有字典单词生成一个概率分布。主题的数量等于您想要的主题数。在这里,您提供的答案对我来说似乎是合乎逻辑的,因为您已经打印了主题5主题和每个主题下的主题8个单词,并给出了它们的概率值。顺便说一句,概率值可能很小,别担心。

这一输出的一个可能原因是:用于训练LDA模型的数据集不够多样,因此几个主题下的顶部单词几乎是相同的,这也表明推断的主题彼此非常接近。如果您期待的是多样化的主题,那么您需要一个具有良好代表性的数据来获取所需的主题数量。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/40168109

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档