文章/答案/技术大牛

发布

社区首页 >问答首页 >非文本数据的主题模型？

问非文本数据的主题模型？
EN

Data Science用户

提问于 2019-12-09 14:00:41

回答 2查看 333关注 0票数 0

我希望在一个数据集上使用一个无监督的聚类，其中每个观察都有一个文本和非文本特性的混合。

对于每一个观察，我将特征组合成一个约1000维的向量。集群我有两个潜在的想法：

使用自动编码器(还是嵌入？)为了降低数据的维数，然后使用k均值进行聚类。
我能用一个主题模型吗？如果是这样的话，在大多数情况下，这难道不是比上述更好的方法吗？

为什么主题模型(在我的经验中)不常见于非文本数据？这仅仅是他们的名字/原始应用程序的遗物，还是有更基本的东西？

谢谢!

clustering

k-means

unsupervised-learning

topic-model

回答 2

Data Science用户

发布于 2019-12-09 14:19:49

我认为您可以使用主题模型，如潜在Dirichlet分配(LDA)。例如，在本文中，https://pdfs.semanticscholar.org/9e6f/33bdd04df0536f6ad6783d33cccfbc54b1b1.pdf被用于音乐和图像。我建议你看一看:)通常，在主题建模中，您将得到一个主题列表，其中每个主题都包含一组关联的关键字。在聚类中，取决于算法，您可能有依赖的层次结构。您还可以使用将每个示例分配给一个类的算法。此外，在进行聚类时，通常需要预先定义距离度量(例如，欧几里得距离)。主题模型，特别是LDA是基于这样的假设:您的数据代表主题的分布及其相应的关键字分布(一个关键字可以包含在许多主题中)。换句话说，您已经假定文本/文档是如何生成的。

票数 0

Data Science用户

发布于 2020-05-15 13:59:13

StarSpace是一个可以学习嵌入文本和非文本特性的模型。一旦将所有特征转换为数字表示，任何主题模型算法都可以工作(例如，LSA、PLSA、LDA或变体)。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/64481

复制

相似问题

问非文本数据的主题模型？
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问非文本数据的主题模型？EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问非文本数据的主题模型？
EN