首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >LDA和主题模型

LDA和主题模型
EN

Stack Overflow用户
提问于 2012-03-07 20:59:10
回答 2查看 2K关注 0票数 4

我研究过几个weeks.But的LDA和主题模型,由于我的数学能力较差,不能完全理解它的内部算法,我使用了GibbsLDA实现,输入了大量的文档,并将主题数设置为100,我得到了一个名为"final.theta“的文件,它存储了每个document.This中每个主题的主题比例,结果很好,我可以用主题比例来做很多其他的事情。但是当我在LDA上尝试Blei的C语言实现时,我只得到了一个名为final.gamma的文件,但我不知道如何将该文件转换为主题比例样式。有人能帮我吗。而且我了解到LDA模型有很多改进的版本(如CTM,HLDA),如果我能找到一个与LDA相似的主题模型,我的意思是当我输入大量文档时,它可以直接输出文档中的主题比例。非常感谢!

EN

回答 2

Stack Overflow用户

发布于 2012-03-10 02:18:37

我认为Blei实现的问题在于,您通过运行以下命令来进行变分推断:

$ lda inf args...

当您想要进行主题评估时,请使用:

$ lda est args...

一旦运行,在当前目录或由可选的最后一个参数指定的目录中将有一个文件"final.beta“。然后运行包含在tar中的python脚本"topics.py“。这里的自述文件:http://www.cs.princeton.edu/~blei/lda-c/readme.txt描述了所有内容,特别是B和D部分。

(如果这仍然没有意义,请让我知道)

至于改进,如CTM等:我对HLDA一无所知,但我过去同时使用过LDA和CTM,我可以说严格来说两者都不比另一种更好-这是一个对不同数据更好的情况。CTM假设文档是相关的,并使用该假设来改进结果,只要该假设为真。

希望这能有所帮助!

票数 1
EN

Stack Overflow用户

发布于 2018-01-29 22:12:31

要获得Eθ,只需对每行中的gammas进行标准化。它是由狄利克雷分布的性质引出的。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/9601976

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档