我想要实现一个系统,其中给定一个输入图像,它返回一个合理的相似的(近似是可接受的)在一个数据集(约) 50K图像。时间性能是的关键。
我将使用SIFT的并行版本来获取描述符D的矩阵。我读过关于Fisher向量(FV) (VLfeat和雅尔实现)的文章,它是一种学习和更精确的特性包(BoF)替代方法,用于将D表示为单个向量v。
我的问题是:
发布于 2016-06-24 07:47:42
您可以考虑的另一种方法是VLAD编码。(基本上是FV的非概率版本,用k均值聚类代替GMMs )
实现只与标准矢量量化略有不同,但我的实验表明,它的性能要好得多,而且码本的大小也要小得多。
它使用欧氏距离来寻找最近的码本向量,但它不只是计数元素,而是累积每一个元素的残差。
图像搜索示例:链接
FV / VLAD纸:纸
https://stackoverflow.com/questions/38007366
复制相似问题