我正在使用LDA算法将许多文档聚类到不同的主题中。LDA算法需要一个输入参数:主题数量。我如何确定这一点呢?
我正在使用路透社语料库对我的解决方案进行基准测试。路透社语料库已经准备好了主题编号。当我聚类路透社文本时,我应该输入相同的主题编号吗?并将我的聚类结果与路透社的结果进行比较?
但是在生产中,在根据主题进行聚类之前,我如何知道主题的数量。这有点像是鸡和蛋的问题。
发布于 2017-03-01 17:42:16
一种方法是通过k均值。通过轮廓(或肘部曲线,但我猜这需要手动干预),您可以获得最佳的簇数量。您可以使用此数字作为主题的数量。
https://stackoverflow.com/questions/21109823
复制相似问题