首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >非文本数据的主题模型?

非文本数据的主题模型?
EN

Data Science用户
提问于 2019-12-09 14:00:41
回答 2查看 333关注 0票数 0

我希望在一个数据集上使用一个无监督的聚类,其中每个观察都有一个文本和非文本特性的混合。

对于每一个观察,我将特征组合成一个约1000维的向量。集群我有两个潜在的想法:

  1. 使用自动编码器(还是嵌入?)为了降低数据的维数,然后使用k均值进行聚类。
  2. 我能用一个主题模型吗?如果是这样的话,在大多数情况下,这难道不是比上述更好的方法吗?

为什么主题模型(在我的经验中)不常见于非文本数据?这仅仅是他们的名字/原始应用程序的遗物,还是有更基本的东西?

谢谢!

EN

回答 2

Data Science用户

发布于 2019-12-09 14:19:49

我认为您可以使用主题模型,如潜在Dirichlet分配(LDA)。例如,在本文中,https://pdfs.semanticscholar.org/9e6f/33bdd04df0536f6ad6783d33cccfbc54b1b1.pdf被用于音乐和图像。我建议你看一看:)通常,在主题建模中,您将得到一个主题列表,其中每个主题都包含一组关联的关键字。在聚类中,取决于算法,您可能有依赖的层次结构。您还可以使用将每个示例分配给一个类的算法。此外,在进行聚类时,通常需要预先定义距离度量(例如,欧几里得距离)。主题模型,特别是LDA是基于这样的假设:您的数据代表主题的分布及其相应的关键字分布(一个关键字可以包含在许多主题中)。换句话说,您已经假定文本/文档是如何生成的。

票数 0
EN

Data Science用户

发布于 2020-05-15 13:59:13

StarSpace是一个可以学习嵌入文本和非文本特性的模型。一旦将所有特征转换为数字表示,任何主题模型算法都可以工作(例如,LSA、PLSA、LDA或变体)。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/64481

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档