文章/答案/技术大牛

发布

社区首页 >问答首页 >为什么降维能提高电影海报的无监督聚类性能？

问为什么降维能提高电影海报的无监督聚类性能？
EN

Stack Overflow用户

提问于 2018-10-30 14:59:20

回答 1查看 309关注 0票数 0

我正在写一篇论文，试图根据电影海报的视觉特征对它们进行聚类。我们的目标是将看起来类似的电影海报聚集在一起。

为了从数量上描述海报的“外观”，我使用预先训练过的VGG16 CNN为所有海报提取了25088个特征。这些特性存储在一个带有尺寸的矩阵中(#电影海报，25088)。

根据提取的特征，我想：

创建类似电影海报的桶/簇，可以在推荐场景中从中提取。
获得一张与给定海报最相似的海报清单(例如，与马达加斯加海报最相似的n张海报)。

我将使用的聚类算法是K-均值，我已经用剪影系数评估了聚类的质量。

我尝试了以下几点：

使用K-均值的原始特征进行聚类(使用余弦相似度)
聚类前执行PCA (10个组件)
在聚类前执行NMF (10个组件)
计算一个相似矩阵，以便能够得到一个n个最相似的电影海报的列表。

我正在努力寻找最好和最简单的解决方案。因此，我有两个问题：

在原始数据上，使用PCA和NMF比.01得到更高的轮廓系数(分别为0.2和.01)。这是因为很多方差都是通过PCA和NMF丢弃的吗？我担心的是，当剪影系数上升时，当我减少PCA和NMF中的分量时，情况就是这样。
为了得到n个最相似的海报的列表，我计算了一个相似矩阵，从这里我打印出了与给定的电影具有最高余弦相似性的电影。有没有一种不用计算相似矩阵就能做到这一点的方法？在我看来，使用PCA和NMF输出矩阵中的信息是可能的。

cluster-analysis

conv-neural-network

cosine-similarity

unsupervised-learning

dimensionality-reduction

回答 1

Stack Overflow用户

发布于 2018-10-30 18:29:16

不能比较根据不同数据计算的轮廓。

但是，每次都可以使用原始数据计算轮廓，并且只能使用投影数据中的集群标签。但是，由于维度的诅咒，它可能也会同样糟糕。

为什么是余弦？它被过度使用了，你应该有一个很好的理由来使用它。

PCA试图保持方差，而不是角度。因此，余弦和主成分分析适用于不同的情况。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/53067194

复制

相似问题

问为什么降维能提高电影海报的无监督聚类性能？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么降维能提高电影海报的无监督聚类性能？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么降维能提高电影海报的无监督聚类性能？
EN