我正在写一篇论文,试图根据电影海报的视觉特征对它们进行聚类。我们的目标是将看起来类似的电影海报聚集在一起。
为了从数量上描述海报的“外观”,我使用预先训练过的VGG16 CNN为所有海报提取了25088个特征。这些特性存储在一个带有尺寸的矩阵中(#电影海报,25088)。
根据提取的特征,我想:
我将使用的聚类算法是K-均值,我已经用剪影系数评估了聚类的质量。
我尝试了以下几点:
我正在努力寻找最好和最简单的解决方案。因此,我有两个问题:
发布于 2018-10-30 18:29:16
不能比较根据不同数据计算的轮廓。
但是,每次都可以使用原始数据计算轮廓,并且只能使用投影数据中的集群标签。但是,由于维度的诅咒,它可能也会同样糟糕。
为什么是余弦?它被过度使用了,你应该有一个很好的理由来使用它。
PCA试图保持方差,而不是角度。因此,余弦和主成分分析适用于不同的情况。
https://stackoverflow.com/questions/53067194
复制相似问题