我希望在一个数据集上使用一个无监督的聚类,其中每个观察都有一个文本和非文本特性的混合。
对于每一个观察,我将特征组合成一个约1000维的向量。集群我有两个潜在的想法:
为什么主题模型(在我的经验中)不常见于非文本数据?这仅仅是他们的名字/原始应用程序的遗物,还是有更基本的东西?
谢谢!
发布于 2019-12-09 14:19:49
我认为您可以使用主题模型,如潜在Dirichlet分配(LDA)。例如,在本文中,https://pdfs.semanticscholar.org/9e6f/33bdd04df0536f6ad6783d33cccfbc54b1b1.pdf被用于音乐和图像。我建议你看一看:)通常,在主题建模中,您将得到一个主题列表,其中每个主题都包含一组关联的关键字。在聚类中,取决于算法,您可能有依赖的层次结构。您还可以使用将每个示例分配给一个类的算法。此外,在进行聚类时,通常需要预先定义距离度量(例如,欧几里得距离)。主题模型,特别是LDA是基于这样的假设:您的数据代表主题的分布及其相应的关键字分布(一个关键字可以包含在许多主题中)。换句话说,您已经假定文本/文档是如何生成的。
发布于 2020-05-15 13:59:13
StarSpace是一个可以学习嵌入文本和非文本特性的模型。一旦将所有特征转换为数字表示,任何主题模型算法都可以工作(例如,LSA、PLSA、LDA或变体)。
https://datascience.stackexchange.com/questions/64481
复制相似问题