首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何确定用于文本聚类的LDA (隐狄利克雷分配)算法中的主题数量?

如何确定用于文本聚类的LDA (隐狄利克雷分配)算法中的主题数量?
EN

Stack Overflow用户
提问于 2014-01-14 17:21:47
回答 1查看 5.8K关注 0票数 3

我正在使用LDA算法将许多文档聚类到不同的主题中。LDA算法需要一个输入参数:主题数量。我如何确定这一点呢?

我正在使用路透社语料库对我的解决方案进行基准测试。路透社语料库已经准备好了主题编号。当我聚类路透社文本时,我应该输入相同的主题编号吗?并将我的聚类结果与路透社的结果进行比较?

但是在生产中,在根据主题进行聚类之前,我如何知道主题的数量。这有点像是鸡和蛋的问题。

EN

回答 1

Stack Overflow用户

发布于 2017-03-01 17:42:16

一种方法是通过k均值。通过轮廓(或肘部曲线,但我猜这需要手动干预),您可以获得最佳的簇数量。您可以使用此数字作为主题的数量。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/21109823

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档