我对机器学习、NLP和LDA都比较陌生,所以我甚至不确定我是否完全正确地处理了我的问题;但我正在尝试使用已知主题和多个主题选择进行无监督的主题建模。基于Topic modelling, but with known topics?
我可以用每个单独的主题标记我的每一个文档,并且我的无监督集实际上变成了有监督的(LLDA是一种有监督的技术)。
阅读这篇paper时,我遇到了其他一些潜在的问题--首先,我的数据是按类别和子类别组织的。根据这篇论文,LLDA在文本之间显着的语义区分方面更有效-我不会特别在我的相对接近的子类别中做到这一点。此外,论文指出,LLDA不是被设计为多标签分类器的。
我希望通过包含GuidedLDA的指导部分来弥补这些缺陷(我还没有读过关于这方面的论文,但我确实读过https://medium.freecodecamp.org/how-we-changed-unsupervised-lda-to-semi-supervised-guidedlda-e36a95f3a164 )。
那么,有没有什么算法(我假设修改了LLDA,但我在这方面又不是很了解),可以让人使用某种形式的直觉来帮助一个无监督的主题模型,其中包含选择多个主题的已知主题类?
至于为什么我不直接使用引导式LDA --我正计划测试它,看看它做得有多好(与LLDA一起)。但它也不是为多个标签设计的。
稍微注意一下--我实际上使用的是文档和单词作为我的数据,我读到过关于LDA与其他数据类型一起使用的文章。
另外请注意--我有相当多的Python经验,虽然我听说有一个很好的主题建模工具,叫做Mallet,我可能会探索一下,但还没有研究过(也许它有这个方面的东西?)
发布于 2019-02-22 14:36:37
正如您所说的,您将尝试指导式LDA,您可以通过以下方式获得多个标签:
有一种称为θ分布的分布,或者当我们想要获得文档的主题时,引导式LDA的输出将是一个数组,它具有每个文档的每个主题的概率。我们通常取probability.May最高的主题,您可以根据您的问题设置阈值,并选择概率大于该值的主题。
这将帮助您解决您的无监督引导主题建模的多标签问题。
发布于 2019-09-20 02:22:21
因为您有一组已知的主题,所以使用有监督的LDA/LLDA将是有意义的。如果使用无监督LDA并使用已知主题标记所有文档,它将找到给定文档之间的关联,但它们很可能与给定主题不相关。
我一直在使用mallet和python创建有监督的LDA。Gensim为mallet的LDA类提供了一个包装器,但我更幸运的是通过命令行使用python子进程来使用mallet。我使用David Mimno的post作为起点。
一个文档可以有多个标签,LDA的美妙之处在于它几乎就像一种模糊关联最近邻算法。子类别对于lda来说应该不是问题,因为文档可以与父主题和子主题有关联,并且它们不需要均匀分布。这在很大程度上是一个多标签分类器。
如果你真的想使用无监督分类器来处理文档,我建议使用RNN,一种递归神经网络。它对于文本/文档处理特别有用,因为它查找数据序列上的关联。
https://stackoverflow.com/questions/54814727
复制相似问题