首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >截断LDA主题

截断LDA主题
EN

Stack Overflow用户
提问于 2021-06-30 21:22:08
回答 2查看 29关注 0票数 0

我正在训练一个LDA模型。虽然我获得了可很好地解释的主题(基于最热门的单词),但特定文档往往大量加载非常“通用”的主题,而不是专门的主题--即使文档中最常见的单词是专门的。

例如,我有一份房地产报告作为文档。频率最高的单词是"reit",“reit”,"growth“。现在,我有了一个“专门的”主题,最热门的词正是这三个。然而,专门化主题的负载率是9%,32%的主题是非常分散的,最常见的词也很常见。

如何增加“专门化”主题的权重?有没有可能截断主题,使我只包括前10个单词,并将零概率分配给其他任何单词?这样做是否可取?

我正在使用gensim包。谢谢!

EN

回答 2

Stack Overflow用户

发布于 2021-07-01 05:27:49

似乎你想要对主题进行非常精确的控制,这看起来更像是通过提前选择的一组质心进行聚类,而不是LDA,这通常不是很确定,因此是可控的。

使用LDA努力实现目标的方法之一是从文档中过滤出更多的单词(与使用停用词一样)。然后,进入其中一个主题的“相当常见”的单词将不再模糊LDA模型的创建过程,您将获得更清晰的主题(希望如此)。

票数 0
EN

Stack Overflow用户

发布于 2021-07-02 22:18:02

在主题建模中,删除最常见的单词是一种非常常见的预处理实践。因为主题通常是由最频繁的单词生成的,但通常这些单词的信息量不是很大。您还可以删除最常用的单词作为后处理步骤(请参阅Pulling Out the Stops: Rethinking Stopword Removal for Topic Models)

关于更稀疏的词-主题分布,可以使用非负矩阵分解(NMF)而不是LDA。如果你调整稀疏性参数,你可以得到更多的主题尖峰比例。您可以使用scikit-learn NMF's implementation

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/68195634

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档