我正在做一个需要应用主题模型LDA的项目。因为在我的例子中,每个文档都是短的,所以我必须使用标签LDA。我对这方面的知识不多,我所需要做的就是将LLDA应用于我的数据。
在网上搜索之后,我在斯坦福TMT上找到了一个LLDA实现。我从部分培训中了解到,有标签的LDA模型是:在培训之前,我应该给每个输入文档贴上标签。我是不是误会了什么?
如果我的理解是正确的,这将涉及太多的工作在标签文件。相反,我是否可以提供一个单独的主题列表,并培训没有标签的文档?
发布于 2013-05-25 04:43:06
你的理解是正确的:你需要在培训前给每个输入文档贴上标签。
标记LDA是一种有监督的方法,这意味着您需要一个标记数据集。
如果您“必须使用标签LDA”,您就无法摆脱获取标签数据集的需要。如果TMT中的LabeledLDA模型需要一个LabeledLDADocumentParams对象,那么就需要一个标签数组。因此,不可能在没有标签的情况下训练出标记的LDA模型。
https://stackoverflow.com/questions/16740154
复制相似问题