我正在使用mallet主题建模工具,并有一些困难使其稳定(我得到的主题似乎不太符合逻辑)。
我使用了您的教程,其中一个是:https://programminghistorian.org/en/lessons/topic-modeling-and-mallet#getting-your-own-texts-into-mallet和我有一些问题要问:
非常感谢你的帮助!
发布于 2019-04-12 13:27:54
在主题建模方面,一些良好实践的参考文献有:主题模型的护理与喂食与Jordan Boyd和Dave,以及应用主题建模与Jordan和Yuening。
对于超参数优化,--optimize-interval 20 --optimize-burn-in 50应该很好,它似乎对特定值不太敏感。Gibbs抽样的收敛性很难评估,默认的1000次迭代应该被解释为“一个足够大的数字,它可能是可以的”,而不是一个特定的值。
如果要从目录中的文件中读取单个文档,则行并不重要。如果文档在删除停止字之前超过1000个令牌,请考虑将它们分解为较小的段。
包含hLDA只是因为人们似乎想要它,我不推荐它用于任何目的。
https://stackoverflow.com/questions/55556791
复制相似问题