我使用标准的ConvNet方法实现了CBIR应用程序:
我得到了很好的结果,但我希望通过添加文本搜索来进一步改进它们。例如,当我的图像是汽车的方向盘时,接近的结果将是任何类似方向盘的圆形物体,例如自行车轮。输入文本的最佳方法是“汽车部件”,只生产与搜索图像类似的方向盘。
我无法找到一种将ConvNet与文本搜索模型相结合的方法来构建改进的knn网络。
我的另一个想法是使用ElasticSearch来进行文本搜索,这是ElasticSearch擅长的事情。例如,我会执行前面描述的CBIR搜索,然后从返回结果中查找它们的描述,然后在点击的子集上使用ElasticSearch来生成结果。可能会用类标记图像,并允许用户对感兴趣的图像组进行删除/选择。
我不想在图像搜索之前进行文本搜索,因为有些图像描述不好,所以文本搜索会错过它们。
任何想法或想法都将不胜感激!
发布于 2019-01-23 21:45:11
我还没有找到原始的论文,但也许你会发现它很有趣:https://www.slideshare.net/xavigiro/multimodal-deep-learning-d4l4-deep-learning-for-speech-and-language-upc-2017
它是关于寻找一个向量空间,其中图像和文本都是(多模嵌入)。通过这种方式,您可以找到类似于图像的文本、引用文本的图像,或者使用元组文本/图像来查找类似的图像。
我认为这个想法可能是一个有趣的起点。
https://stackoverflow.com/questions/54335799
复制相似问题