首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >为什么降维能提高电影海报的无监督聚类性能?

为什么降维能提高电影海报的无监督聚类性能?
EN

Stack Overflow用户
提问于 2018-10-30 14:59:20
回答 1查看 309关注 0票数 0

我正在写一篇论文,试图根据电影海报的视觉特征对它们进行聚类。我们的目标是将看起来类似的电影海报聚集在一起。

为了从数量上描述海报的“外观”,我使用预先训练过的VGG16 CNN为所有海报提取了25088个特征。这些特性存储在一个带有尺寸的矩阵中(#电影海报,25088)。

根据提取的特征,我想:

  1. 创建类似电影海报的桶/簇,可以在推荐场景中从中提取。
  2. 获得一张与给定海报最相似的海报清单(例如,与马达加斯加海报最相似的n张海报)。

我将使用的聚类算法是K-均值,我已经用剪影系数评估了聚类的质量。

我尝试了以下几点:

  • 使用K-均值的原始特征进行聚类(使用余弦相似度)
  • 聚类前执行PCA (10个组件)
  • 在聚类前执行NMF (10个组件)
  • 计算一个相似矩阵,以便能够得到一个n个最相似的电影海报的列表。

我正在努力寻找最好和最简单的解决方案。因此,我有两个问题:

  1. 在原始数据上,使用PCA和NMF比.01得到更高的轮廓系数(分别为0.2和.01)。这是因为很多方差都是通过PCA和NMF丢弃的吗?我担心的是,当剪影系数上升时,当我减少PCA和NMF中的分量时,情况就是这样。
  2. 为了得到n个最相似的海报的列表,我计算了一个相似矩阵,从这里我打印出了与给定的电影具有最高余弦相似性的电影。有没有一种不用计算相似矩阵就能做到这一点的方法?在我看来,使用PCA和NMF输出矩阵中的信息是可能的。
EN

回答 1

Stack Overflow用户

发布于 2018-10-30 18:29:16

不能比较根据不同数据计算的轮廓。

但是,每次都可以使用原始数据计算轮廓,并且只能使用投影数据中的集群标签。但是,由于维度的诅咒,它可能也会同样糟糕。

为什么是余弦?它被过度使用了,你应该有一个很好的理由来使用它。

PCA试图保持方差,而不是角度。因此,余弦和主成分分析适用于不同的情况。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/53067194

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档