首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使Mallet主题-建模稳定

使Mallet主题-建模稳定
EN

Stack Overflow用户
提问于 2019-04-07 07:52:35
回答 1查看 168关注 0票数 0

我正在使用mallet主题建模工具,并有一些困难使其稳定(我得到的主题似乎不太符合逻辑)。

我使用了您的教程,其中一个是:https://programminghistorian.org/en/lessons/topic-modeling-and-mallet#getting-your-own-texts-into-mallet和我有一些问题要问:

  1. 有什么最佳实践可以让这个模型起作用吗?除了优化命令(什么是好的数字)?迭代命令的好数字是什么?
  2. 我使用import dir命令导入数据。在那个地方有我的档案。这些文件是否包含有新行的文本,还是只包含很长的行?
  3. 我读过关于hLDA模型的文章。当我尝试运行它时,我看到唯一的输出是不太清楚的state.txt输出。对于类似主题建模模型(topic_keys.txt,doc_topics.txt)这样的输出,我希望如何获得它们?
  4. 什么时候应该使用hLDA而不是主题建模?

非常感谢你的帮助!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-04-12 13:27:54

在主题建模方面,一些良好实践的参考文献有:主题模型的护理与喂食与Jordan Boyd和Dave,以及应用主题建模与Jordan和Yuening。

对于超参数优化,--optimize-interval 20 --optimize-burn-in 50应该很好,它似乎对特定值不太敏感。Gibbs抽样的收敛性很难评估,默认的1000次迭代应该被解释为“一个足够大的数字,它可能是可以的”,而不是一个特定的值。

如果要从目录中的文件中读取单个文档,则行并不重要。如果文档在删除停止字之前超过1000个令牌,请考虑将它们分解为较小的段。

包含hLDA只是因为人们似乎想要它,我不推荐它用于任何目的。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55556791

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档