搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏#大模型热点基础知识
RAG系统如何支持多模态检索？图文检索如何实现？
二、什么是多模态检索？多模态检索（MultimodalRetrieval）是指系统能够处理多种数据类型（如文本、图像、音频、视频等），并将它们映射到统一的向量空间，实现跨模态的相似度匹配。多模态检索的三种模式：检索模式查询类型返回类型应用场景文查图文本图像"找一件红色连衣裙"图查文图像文本上传图片找商品描述图查图图像图像找相似款式三、多模态检索如何工作跨模态对齐：从对比学习到统一空间实现跨模态对齐的关键技术是对比学习跨语言多模态检索：支持不同语言的文本和图像进行跨语言、跨模态的检索。比如用中文描述检索英文商品图片，或者用日文描述检索中文设计素材。六、总结与思考多模态检索的本质是跨模态对齐，通过对比学习让不同模态的数据在统一的向量空间中对话。实现上分为三步：建立索引、查询处理、跨模态检索。关键技术是双塔结构的多模态编码器（如CLIP），工程上需要考虑性能优化、模态平衡、增量更新等问题。多模态检索的价值不仅在于技术实现，更在于它打破了不同模态之间的壁垒，创造了前所未有的交互方式。
49810编辑于 2026-03-25
来自专栏自然语言处理(NLP)论文速递
剑桥 | 发布多模态检索器，赋能多模态大模型RAG应用
PreFLMR模型是一个通用的预训练多模态知识检索器，可用于搭建多模态RAG应用。图 2：PreFLMR 模型同时在多项任务上取得极佳的多模态检索表现，是一个极强的预训练基底模型。 2. 尤其是在多模态任务中，用户的问询（Query）包含复杂场景信息，压缩至一维向量极大抑制了特征的表达能力。PreFLMR 继承并改进了 FLMR 的结构，使其在多模态知识检索中有得天独厚的优势。 M2KR 数据集为了大规模预训练和评估通用多模态检索模型，作者汇编了十个公开的数据集并将其转换为统一的问题 - 文档检索格式。实验结果表明对于后期交互多模态检索系统，增加视觉编码器的参数带来的回报更大。
62610编辑于 2024-03-26
生成式AI革新多模态信息检索
利用生成式AI进行多模态信息检索过去十年的大部分时间里，机器学习严重依赖于嵌入的概念：模型学习将输入数据转换为向量，使得向量空间内的几何关系具有语义含义。嵌入概念意味着一个明显的信息检索范式：查询被嵌入到表示空间中，模型选择嵌入最接近它的响应。这也适用于多模态信息检索，因为文本和图像可以被嵌入到同一个空间。然而，最近生成式AI主导了机器学习研究。我们的模型被命名为GENIUS，是一个多模态模型，其输入和输出可以是图像、文本或图文对的任意组合。然而，现有的生成方法通常是特定于任务的，在性能上不及基于嵌入的方法，并且难以处理多模态数据。随着数据集的增长，其效率优势变得更加显著，无需像基于嵌入的方法那样进行昂贵的索引构建即可保持高检索速度。因此，它代表了生成式多模态检索领域的重要进展。FINISHED
19210编辑于 2026-02-01
生成式AI革新多模态信息检索技术
这种嵌入概念意味着一种直观的信息检索范式：查询被嵌入到表示空间中，模型选择其嵌入与之最接近的响应。这同样适用于多模态信息检索，因为文本和图像（或其他模态）可以嵌入到同一空间中。该模型名为GENIUS，是一个多模态模型，其输入和输出可以是图像、文本或图文对的任意组合。然而，现有的生成方法通常是任务特定的，与基于嵌入的方法相比性能不足，并且难以处理多模态数据。 GENIUS与局限于单模态任务或特定基准的先前的尝试不同，GENIUS可推广到文本、图像和图文对的检索，同时保持高速度和有竞争力的准确性。其效率优势随着数据集的增长而变得更加显著，在无需进行基于嵌入方法中昂贵的索引构建的情况下，保持高检索速度。因此，它代表了生成式多模态检索领域的重要一步。
35910编辑于 2025-12-17
生成式AI革新多模态信息检索技术
嵌入概念意味着一个直观的信息检索范式：查询被嵌入到表示空间中，模型会选择嵌入最接近它的响应。这也适用于多模态信息检索，因为文本和图像（或其他模态）可以嵌入到同一空间。我们的模型名为GENIUS（意为生成式通用多模态搜索），是一个多模态模型，其输入和输出可以是图像、文本或图文对的任意组合。然而，现有的生成方法通常是任务特定的，与基于嵌入的方法相比性能不足，并且难以处理多模态数据。 GENIUS与仅限于单模态任务或特定基准的先前方法不同，GENIUS可推广到文本、图像和图文对的检索，同时保持高速度和有竞争力的准确性。随着数据集的增长，其效率优势变得更加显著，无需像基于嵌入方法那样进行昂贵的索引构建即可保持高检索速度。因此，它代表了生成式多模态检索的重大进步。
33810编辑于 2026-01-09
生成式AI实现多模态信息检索新突破
多模态检索的范式革新过去十年间，机器学习主要依赖嵌入技术——将输入数据转换为向量，使向量空间中的几何关系反映语义关联。传统检索方式需计算查询向量与所有候选向量的相似度，当面对海量数据时效率低下。性能突破在M-BEIR基准测试中：文本到图像检索任务（COCO数据集）Recall@5指标超越现有生成式方法28.6分结合嵌入重排序后，性能差距较传统方法缩小31%-56%检索速度不受数据库规模影响，索引构建成本降低独立训练图像和文本编码器对比学习阶段undefined残差量化模块学习生成层级编码推理阶段undefined基于Trie树结构约束输出序列，确保生成有效ID该技术已应用于某机构搜索系统，在十亿级数据规模下保持毫秒级响应，为跨模态检索提供高效解决方案
29910编辑于 2025-08-04
生成式AI实现多模态信息检索技术突破
利用生成式AI进行多模态信息检索过去十年间，机器学习主要依赖嵌入概念：模型学习将输入数据转换为向量，使得向量空间中的几何关系具有语义含义。例如，嵌入表示相近的词语可能具有相似含义。这种嵌入概念催生了明显的信息检索范式：将查询嵌入表示空间，模型选择嵌入最接近的响应。这也适用于多模态信息检索，因为文本和图像可以嵌入同一空间。我们的模型名为GENIUS（通用多模态搜索生成框架），是一个多模态模型，其输入和输出可以是图像、文本或图文对的任意组合。然而，现有的生成方法通常是任务特定的，在性能上不及基于嵌入的方法，并且难以处理多模态数据。随着数据集增长，其效率优势变得更加显著，保持高检索速度，而无需基于嵌入方法典型的昂贵索引构建。因此，它代表了生成式多模态检索的重要进展。
39010编辑于 2025-10-12
生成式AI实现多模态信息检索新突破
多模态信息检索的生成式革新过去十年间，机器学习（ML）严重依赖嵌入（embedding）概念：模型将输入数据转换为向量，使向量空间中的几何关系具有语义含义。例如，嵌入位置相近的单词可能含义相似。这种范式下的信息检索流程是：将查询嵌入表示空间，模型选择与之最接近的嵌入作为响应。多模态检索也遵循此模式，文本和图像可嵌入同一空间。然而随着生成式AI的兴起，传统检索方式面临革新。在2025年计算机视觉与模式识别会议（CVPR）上提出的GENIUS框架（通用多模态搜索生成框架），实现了生成式AI时代的信息检索突破。该模型支持图像、文本及图文对的任意组合输入输出。嵌入检索(a)需逐项比对查询与候选向量，而生成式检索(b/c)直接生成唯一ID。GENIUS(c)的首位ID码标识输出模态。（免索引构建、恒定检索时间）的同时，将生成式与嵌入式方法的性能差距缩小到可接受范围，标志着多模态检索领域的重大进步。
50400编辑于 2025-08-04
来自专栏Datawhale专栏
KDD Cup 2020 多模态检索赛道：数据分析
近期对图像检索颇为感兴趣，正巧看到今年KDD Cup赛题中有两道都是它相关的，借着这次机会学习学习。本赛题使用淘宝APP的真实场景多模态数据，数据集由淘宝搜索查询和产品图像特征组成，组织成基于查询的多模态检索任务。需要注意本次赛题不是文本匹配任务，而关注跨模态的检索过程，因此不会给出商品的原始文字描述。本赛题主要考察跨模态的检索检索任务，而且数据量非常大，需要选手通过query文本检索到商品，具体使用检索指标进行量化： (1) 这一题典型的跨模态检索任务，由于测试集中每个query会给出可能的30个商品，因此也可以使用多模态匹配的方法。
1.5K10发布于 2020-04-17
网络大会聚焦信息检索与多模态AI技术
知识与多模态最让学者感兴趣的研究趋势之一是将结构化和非结构化知识及推理融入用于对话式信息检索和推荐系统的自然语言处理模型。“我可以举一个与我们工作密切相关的例子，”他说。 “我一直在研究的另一件事是用户如何与信息检索和对话系统互动。得益于Alexa等产品，对话界面已变得无处不在，但关于这些智能体在现实世界中如何与用户互动，并结合屏幕和可用传感器等其他模态，这是一个完全开放的领域。现在我们拥有更丰富的环境和交互模态。所以你可以想象，要真正提出准确的方法来解释用户与嵌入其空间的多模态对话系统的交互，还需要我们再花20年时间。” 研究领域搜索和信息检索对话式AI标签常识推理多模态交互学术合作网络大会
23410编辑于 2025-12-19
来自专栏深度学习与python
跨语言的多模态、多任务检索模型 MURAL 解读
在 EMNLP 2021 提交的论文《MURAL：跨语言的多模态、多任务检索》（MURAL: Multimodal, Multitask Retrieval Across Languages）中，我们描述了一种用于图像各种多语言图像-文本检索基准的平均召回率。平均召回率是用于评估图像 - 文本数据集的跨模态检索性能的常用指标（越高越好）。相对于 LaBSE 的可视化，MURAL 的嵌入更注重多模态的学习，表现出一些符合区域语言学（某一地理区域内的语言或方言共享元素）和接触语言学（语言或方言相互影响）的集群。此外，在使用多模态模型学习的文本表示中，观察区域语言学和接触语言学的提示也很有意思。因此，需要进一步探索通过多模态模型（如 MURAL）隐式学习到的各种联系。最后，我们希望这项工作能促进多模态、多语言空间的深入研究，在这个空间里，模型学习语言的表示和语言之间的联系（通过图像和文本表示），而不仅仅是资源丰富的语言。
1.7K30编辑于 2021-12-28
来自专栏DotNet NB && CloudNative
多模态RAG应用之实现文本检索视频内容
但现在很多平台或者应用有大量的视频，还有某些跟视频打交道的应用比如视频编辑器，视频自动化处理工具等，这些工具如果只有简单的文本搜索就远远不够用了，搜索体验肯定会大打折扣；由此引出我们今天的主题：如何使用多模态简单点就是说结合大模型和网络搜索的内容，整合后再返回给你，让你看到既新又准确的答案；多模态RAG：则是将RAG的理念扩展到多种数据模态中，包括文本、图片、音频、视频等。这种技术使得AI不仅能处理文本数据，还能理解和处理图片、音频等这些更多模态的数据；其实说白了就是普通RAG只支持文本，多模态拓展到图片、音视频；嵌入式模型：嵌入式模型（Embedding）是一种广泛应用于自然语言处理也是现在流行的RAG检索增强生成的基础。" 0.4851664642889189 图片1&3的余弦相似度是:0.14224603129566593 对比结果准确，图片1&2摩托车的相似度远远大于1&3摩托车和猫的；处理视频数据这里重申本文目标：使用多模态
92510编辑于 2025-01-07
数据万象（CI）多模态智能检索服务技术概要
一、产品定位与核心亮点数据万象（Cloud Infinite, CI）多模态智能检索是腾讯云推出的基于 COS（对象存储）的一站式智能数据处理服务。其核心技术属性在于利用自研特征提取服务及检索引擎，将非结构化数据（图片、视频、音频、文档）转化为向量特征，并映射到统一特征空间，实现跨模态检索。商业差异化卖点：多模态融合：支持文本、图片、视频等多种模态数据的混合检索。场景深度适配：自研引擎特别适配中文电商场景，解决了通用检索在垂直领域的语义理解偏差。检索机制创新：结合结构化标签与向量数据（Hybrid Search + Rerank），解决非结构化数据占比高、文件小数量多导致的检索低效问题。支持输入检索文本/图片/视频，进行 Embedding 相似度对比。成效：实现跨模态检索（以文搜视频、以图搜视频）。支持从数十亿文件中快速查询，辅助构建智能相册或内容审核。
8300编辑于 2026-05-31
来自专栏机器之心
剑桥团队开源：赋能多模态大模型RAG应用，首个预训练通用多模态后期交互知识检索器
机器之心专栏机器之心编辑部 PreFLMR模型是一个通用的预训练多模态知识检索器，可用于搭建多模态RAG应用。图 2：PreFLMR 模型同时在多项任务上取得极佳的多模态检索表现，是一个极强的预训练基底模型。 2. 尤其是在多模态任务中，用户的问询（Query）包含复杂场景信息，压缩至一维向量极大抑制了特征的表达能力。PreFLMR 继承并改进了 FLMR 的结构，使其在多模态知识检索中有得天独厚的优势。 M2KR 数据集为了大规模预训练和评估通用多模态检索模型，作者汇编了十个公开的数据集并将其转换为统一的问题 - 文档检索格式。实验结果表明对于后期交互多模态检索系统，增加视觉编码器的参数带来的回报更大。
1.8K11编辑于 2024-03-26
来自专栏机器之心
AAAI 2023｜基于多模态标签聚合的视频检索模型TABLE，多项SOTA
在 QQ 浏览器搜索中，视频通常包含标题、封面图、视频帧、音频等多种模态信息，因此视频检索模型引入了多模态特征，以刻画 query 与视频在多个模态上的相关程度，并进行综合排序，提升视频搜索结果的整体满意度由此，我们提出了一种既学习了图文预训练知识，又有效利用多模态标签引导视觉 - 文本对齐的视频检索模型：TABLE（TAgging Before aLignmEnt）。针对以上问题，我们提出了一个新的以多模态标签为引导的视频 - 文本检索模型：TABLE（TAgging Before aLignmEnt）。相比以往方法，TABLE 的优势可以总结如下：不仅将图文预训练的知识迁移到视频 - 文本检索任务，而且充分利用了视频的多模态信息，包括物体、人物、场景、动作、音频；多模态信息在标签域上进行融合，得到了统一的表征由于联合编码器与跨模态编码器是共享参数的，因此可视化结果也进一步证明了跨模态编码器的能力：它能够在多模态标签的引导下，从冗余的视觉特征中筛选出关键帧和关键区域，有利于视频 - 文本的精准检索。
1.6K20编辑于 2023-03-29
来自专栏小耶转行干货分享
向量数据库详解：RAG 系统的核心引擎与多模态检索
常用模型：文本：OpenAItext-embedding-3-large（1536维）、BGE（1024维）图像：CLIP、ResNet多模态：CLIP（可以同时编码图文）向量检索的本质就是计算两个向量的距离这种方案的设计理念是“多模一体”——向量不是孤岛，而是数据库内置的一种数据类型，可以和关系表、JSON、GIS放在同一个SQL里混合查询。向量索引将检索从分钟级降到毫秒级。其他应用场景：推荐系统（用户向量+商品向量召回）、多模态检索（以图搜图）、异常检测（离群点识别）、去重聚类等。信创环境+多模需求：KingbaseESV9是目前国内较完整的一体化方案。向量数据库不是“传统数据库的替代品”，而是AI应用时代的新基建。选型时不需要盲目跟风，更不要被厂商的“跑分”迷惑——先搞清楚自己的数据规模、是否需要多模关联、团队运维能力，再对号入座。技术选型这件事，适合的才是最好的。
10800编辑于 2026-06-10
来自专栏我爱计算机视觉
EMNLP 2021-多模态Transformer真的多模态了吗？论多模态Transformer对跨模态的影响
Motivation 视觉语言BERT模型扩展了BERT架构，以生成多模态输入的跨模态上下文表示。当对一系列下游任务进行微调时，这些模型已被证明是非常有效的。如果测试过程中，去除某个模态的信息，对最终结果影响很大，那这个模态在最终预测的时候就是有用的；否则这个模态就是没用的。多模态模型在预测时使用由多模态输入触发的跨模态激活。这是原始的多模态设置，因此，有效使用多模态信息的模型应该表现最好。 Object：在这里，作者只删除与对齐的文本短语相对应的图像区域，该模型仍然可以使用周围的视觉上下文特征。测试的模型显示了vision-for-language，而不是language-for-vision的结果，这一事实可能是多模态任务的积累，因为一些下游多模态任务需要强烈的 vision-for-language ▊ 作者简介研究领域：FightingCV公众号运营者，研究方向为多模态内容理解，专注于解决视觉模态和语言模态相结合的任务，促进Vision-Language模型的实地应用。
2.6K20发布于 2021-09-28
来自专栏AI大模型应用开发炼丹房
多模态RAG架构解析：当文本检索遇上图像音频编码
请回答：{query}"生成阶段：将增强后的Prompt输入LLM（如GPT-4、Llama2）生成最终回答典型缺陷：检索精度不足：当查询表述与知识库措辞差异大时，语义相似度匹配失效上下文碎片化：直接拼接多个文本块易导致信息冗余或冲突多跳推理弱：无法处理需要串联多个知识片段的问题（如“特斯拉CEO的出生地”）幻觉风险：当检索结果不相关时，LLM基于错误上下文生成答案1.2 Advanced RAG：优化检索流程核心创新点：在检索前后引入优化模块 return call_llm(prompt).split("\n")子查询分解：对复杂查询进行分步处理# 多跳查询处理示例sub_queries = [ "马斯克担任CEO的公司", " ：多模态与实时更新混合检索架构：关键优化方向：多源优先级：设置来源可信度权重（如权威网站>普通文档）时效性过滤：自动排除过期信息（WHERE publish_date > '2024-01-01'）多模态支持 )print(results)持续评估策略：人工审核池：随机抽样100个问题进行专家评分A/B测试：新旧版本在线上流量分桶对比端到端监控：记录平均响应延迟、错误率等业务指标四、工程化扩展与实践4.1 多模态
64810编辑于 2025-07-07
MiniCPM-V 系列模型在多模态文档 RAG 中的应用：无需OCR的高效多模态文档检索与问答系统
是否能够用一种近乎无损的方法来表征复杂图文文档，从而用来信息无损地检索多模态文档？现在我们以 OpenBMB 基于 MiniCPM-V-2.0 训练的端到端多模态检索模型 MiniCPM-Visual-Embedding-v0 为例，实现多模态检索。若不熟悉多模态信息检索也没有关系！本文的小标题非常容易follow。多模态检索配置环境如果你是 Linux+英伟达GPU用户，在开始前，我们需要配置 MiniCPM-V 的运行环境。进阶：全流程多模态 RAG至此，我们已经拿到了检索的最相关页面，但是阅读这些页面并回答也需要时间，这个情况在 MiniCPM-V-2.6 发布之前，要用 GPT-4V 的 api 来实现生成，但现在有了 image=None, msgs=msgs, tokenizer=tokenizer)print(answer)然后笔者搭建了一个huggingface demo，把这一套流程集成到了多模态检索流程中
2.2K10编辑于 2024-08-19
来自专栏WeOps
OpsPilot技术赋能：语义空间构建与多模态检索的运维新范式
直达原文：OpsPilot功能上新：Embedding重构语义空间，混合检索驱动知识发现（内附体验环境）随着技术的快速发展，检索增强生成（RAG）成为构建智能知识库的核心方案。；在知识库中，这种检索方式可避免传统关键词检索的片面性，确保在复杂知识体系中高效获取相关内容，为用户提供更准确、全面的知识支持。 02.OpsPilot检索机制拥有了文本分块和向量空间数据，OpsPilot使用三种检索设置实现对知识库的高效、精准检索。纯文本搜索：基于关键词搜索技术，从大量文本数据中搜索并提取相关文档。混合检索：同时开启文本搜索与向量搜索，系统会根据各自权重综合打分，兼顾关键词匹配和语义相似性，将最终结果按打分从高到低展示，提升检索全面性与准确性。 03.嘉为蓝鲸OpsPilot——更懂运维的AI平台嘉为蓝鲸OpsPilot是集知识库管理、技能配置、机器人管理和工具管理为一体的智能运维支撑平台，深度融合 LLM 大模型的语义理解、知识增强与多模态处理能力
42510编辑于 2025-04-21

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

RAG系统如何支持多模态检索？图文检索如何实现？

剑桥 | 发布多模态检索器，赋能多模态大模型RAG应用

生成式AI革新多模态信息检索

生成式AI革新多模态信息检索技术

生成式AI革新多模态信息检索技术

生成式AI实现多模态信息检索新突破

生成式AI实现多模态信息检索技术突破

生成式AI实现多模态信息检索新突破

KDD Cup 2020 多模态检索赛道：数据分析

网络大会聚焦信息检索与多模态AI技术

跨语言的多模态、多任务检索模型 MURAL 解读

多模态RAG应用之实现文本检索视频内容

数据万象（CI）多模态智能检索服务技术概要

剑桥团队开源：赋能多模态大模型RAG应用，首个预训练通用多模态后期交互知识检索器

AAAI 2023｜基于多模态标签聚合的视频检索模型TABLE，多项SOTA

向量数据库详解：RAG 系统的核心引擎与多模态检索

EMNLP 2021-多模态Transformer真的多模态了吗？论多模态Transformer对跨模态的影响

多模态RAG架构解析：当文本检索遇上图像音频编码

MiniCPM-V 系列模型在多模态文档 RAG 中的应用：无需OCR的高效多模态文档检索与问答系统

OpsPilot技术赋能：语义空间构建与多模态检索的运维新范式

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐