搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

生成式AI革新多模态信息检索
利用生成式AI进行多模态信息检索过去十年的大部分时间里，机器学习严重依赖于嵌入的概念：模型学习将输入数据转换为向量，使得向量空间内的几何关系具有语义含义。嵌入概念意味着一个明显的信息检索范式：查询被嵌入到表示空间中，模型选择嵌入最接近它的响应。这也适用于多模态信息检索，因为文本和图像可以被嵌入到同一个空间。然而，最近生成式AI主导了机器学习研究。我们的模型被命名为GENIUS，是一个多模态模型，其输入和输出可以是图像、文本或图文对的任意组合。然而，现有的生成方法通常是特定于任务的，在性能上不及基于嵌入的方法，并且难以处理多模态数据。因此，它代表了生成式多模态检索领域的重要进展。FINISHED
13810编辑于 2026-02-01
生成式AI革新多模态信息检索技术
这种嵌入概念意味着一种直观的信息检索范式：查询被嵌入到表示空间中，模型选择其嵌入与之最接近的响应。这同样适用于多模态信息检索，因为文本和图像（或其他模态）可以嵌入到同一空间中。该模型名为GENIUS，是一个多模态模型，其输入和输出可以是图像、文本或图文对的任意组合。然而，现有的生成方法通常是任务特定的，与基于嵌入的方法相比性能不足，并且难以处理多模态数据。 GENIUS与局限于单模态任务或特定基准的先前的尝试不同，GENIUS可推广到文本、图像和图文对的检索，同时保持高速度和有竞争力的准确性。因此，它代表了生成式多模态检索领域的重要一步。
28910编辑于 2025-12-17
生成式AI革新多模态信息检索技术
嵌入概念意味着一个直观的信息检索范式：查询被嵌入到表示空间中，模型会选择嵌入最接近它的响应。这也适用于多模态信息检索，因为文本和图像（或其他模态）可以嵌入到同一空间。我们的模型名为GENIUS（意为生成式通用多模态搜索），是一个多模态模型，其输入和输出可以是图像、文本或图文对的任意组合。然而，现有的生成方法通常是任务特定的，与基于嵌入的方法相比性能不足，并且难以处理多模态数据。 GENIUS与仅限于单模态任务或特定基准的先前方法不同，GENIUS可推广到文本、图像和图文对的检索，同时保持高速度和有竞争力的准确性。因此，它代表了生成式多模态检索的重大进步。研究领域搜索与信息检索标签生成式AI关于作者Sungyeon Kim 是浦项科技大学（POSTECH）计算机视觉实验室的博士后研究员。
24010编辑于 2026-01-09
生成式AI实现多模态信息检索新突破
多模态检索的范式革新过去十年间，机器学习主要依赖嵌入技术——将输入数据转换为向量，使向量空间中的几何关系反映语义关联。传统检索方式需计算查询向量与所有候选向量的相似度，当面对海量数据时效率低下。查询增强技术undefined通过在表征空间对查询-ID对进行插值，生成多样化训练样本，使模型能适应新型数据分布，显著提升泛化能力。性能突破在M-BEIR基准测试中：文本到图像检索任务（COCO数据集）Recall@5指标超越现有生成式方法28.6分结合嵌入重排序后，性能差距较传统方法缩小31%-56%检索速度不受数据库规模影响，索引构建成本降低 90%系统架构预训练阶段undefined独立训练图像和文本编码器对比学习阶段undefined残差量化模块学习生成层级编码推理阶段undefined基于Trie树结构约束输出序列，确保生成有效ID该技术已应用于某机构搜索系统，在十亿级数据规模下保持毫秒级响应，为跨模态检索提供高效解决方案。
25110编辑于 2025-08-04
生成式AI实现多模态信息检索技术突破
利用生成式AI进行多模态信息检索过去十年间，机器学习主要依赖嵌入概念：模型学习将输入数据转换为向量，使得向量空间中的几何关系具有语义含义。例如，嵌入表示相近的词语可能具有相似含义。这种嵌入概念催生了明显的信息检索范式：将查询嵌入表示空间，模型选择嵌入最接近的响应。这也适用于多模态信息检索，因为文本和图像可以嵌入同一空间。我们的模型名为GENIUS（通用多模态搜索生成框架），是一个多模态模型，其输入和输出可以是图像、文本或图文对的任意组合。然而，现有的生成方法通常是任务特定的，在性能上不及基于嵌入的方法，并且难以处理多模态数据。因此，它代表了生成式多模态检索的重要进展。
32710编辑于 2025-10-12
生成式AI实现多模态信息检索新突破
多模态信息检索的生成式革新过去十年间，机器学习（ML）严重依赖嵌入（embedding）概念：模型将输入数据转换为向量，使向量空间中的几何关系具有语义含义。例如，嵌入位置相近的单词可能含义相似。这种范式下的信息检索流程是：将查询嵌入表示空间，模型选择与之最接近的嵌入作为响应。多模态检索也遵循此模式，文本和图像可嵌入同一空间。然而随着生成式AI的兴起，传统检索方式面临革新。在2025年计算机视觉与模式识别会议（CVPR）上提出的GENIUS框架（通用多模态搜索生成框架），实现了生成式AI时代的信息检索突破。该模型支持图像、文本及图文对的任意组合输入输出。嵌入检索(a)需逐项比对查询与候选向量，而生成式检索(b/c)直接生成唯一ID。GENIUS(c)的首位ID码标识输出模态。（免索引构建、恒定检索时间）的同时，将生成式与嵌入式方法的性能差距缩小到可接受范围，标志着多模态检索领域的重大进步。
41900编辑于 2025-08-04
来自专栏#大模型热点基础知识
RAG系统如何支持多模态检索？图文检索如何实现？
二、什么是多模态检索？多模态检索（MultimodalRetrieval）是指系统能够处理多种数据类型（如文本、图像、音频、视频等），并将它们映射到统一的向量空间，实现跨模态的相似度匹配。多模态检索的三种模式：检索模式查询类型返回类型应用场景文查图文本图像"找一件红色连衣裙"图查文图像文本上传图片找商品描述图查图图像图像找相似款式三、多模态检索如何工作跨模态对齐：从对比学习到统一空间实现跨模态对齐的关键技术是对比学习：图像编码比文本编码消耗更多资源五、多模态检索的实际应用与发展趋势实际应用场景1.电商商品搜索场景：用户上传一张衣服图片，找相似商品工作流程：用户上传图片CLIP图像编码器生成512维向量在向量库中检索相似商品图片未来展望：多模态大模型与RAG深度结合：现在的CLIP主要做语义对齐，但推理能力有限。像GPT-4V这种视觉语言模型出现后，我们可以把检索和生成更紧密地结合，从单纯的检索走向理解+生成的完整链路。跨语言多模态检索：支持不同语言的文本和图像进行跨语言、跨模态的检索。比如用中文描述检索英文商品图片，或者用日文描述检索中文设计素材。
23210编辑于 2026-03-25
来自专栏自然语言处理(NLP)论文速递
剑桥 | 发布多模态检索器，赋能多模态大模型RAG应用
PreFLMR模型是一个通用的预训练多模态知识检索器，可用于搭建多模态RAG应用。图 1：GPT4-Vision 在 PreFLMR 多模态知识检索器的帮助下可以获得相关知识，生成正确的答案。图中展示了模型的真实输出。针对这个问题，检索增强生成（RAG，Retrieval-Augmented Generation）提供了一个简单有效的让多模态大模型成为” 领域专家” 的方案：首先，一个轻量的知识检索器（Knowledge 尤其是在多模态任务中，用户的问询（Query）包含复杂场景信息，压缩至一维向量极大抑制了特征的表达能力。PreFLMR 继承并改进了 FLMR 的结构，使其在多模态知识检索中有得天独厚的优势。实验结果表明对于后期交互多模态检索系统，增加视觉编码器的参数带来的回报更大。
55210编辑于 2024-03-26
以深度场景适配推动业务增长：多模态增强检索生成应用解决方案
多模态增强检索生成应用解决方案聚焦上述社会需求，将大模型与企业业务流程相结合，让大模型从泛化通用转向垂直精耕，精准实现业务场景赋能。方案概述多模态增强检索生成应用解决方案整合企业业务数据资源，以多种成熟开源大模型为基座，引接专项任务模型，从业务需求角度出发，针对特定类型视频、图像等模态，完成检测、跟踪、对象识别、场景识别、关键信息抽取等增量训练，由通过轻量化部署接入企业现有业务流程，使企业借助多模态语义知识库系统、跨模态解析等复合能力获取场景级解决方案。流量运营方案建设数据中台，支持多模态内容标签识别、信息精准拆解和内容深度理解，唤醒沉睡的内容，知识利用效率提升200%；通过数据接口，与用户展开跨模态智能对话问答，将数据能力服务化。多模态增强检索生成应用解决方案从业务场景出发，通过模型选型、微调训练、功能部署等方式，让AI技术嵌入业务链条，实现了技术赋能到价值创造的跨越。
19310编辑于 2026-01-05
来自专栏Datawhale专栏
KDD Cup 2020 多模态检索赛道：数据分析
近期对图像检索颇为感兴趣，正巧看到今年KDD Cup赛题中有两道都是它相关的，借着这次机会学习学习。本赛题使用淘宝APP的真实场景多模态数据，数据集由淘宝搜索查询和产品图像特征组成，组织成基于查询的多模态检索任务。需要注意本次赛题不是文本匹配任务，而关注跨模态的检索过程，因此不会给出商品的原始文字描述。本赛题主要考察跨模态的检索检索任务，而且数据量非常大，需要选手通过query文本检索到商品，具体使用检索指标进行量化： (1) 这一题典型的跨模态检索任务，由于测试集中每个query会给出可能的30个商品，因此也可以使用多模态匹配的方法。
1.4K10发布于 2020-04-17
网络大会聚焦信息检索与多模态AI技术
知识与多模态最让学者感兴趣的研究趋势之一是将结构化和非结构化知识及推理融入用于对话式信息检索和推荐系统的自然语言处理模型。“我可以举一个与我们工作密切相关的例子，”他说。 “为了生成明智的回复，对话智能体需要能够以连贯的方式检测何时、如何以及在对话中融入何种知识。 “关于如何融入这些知识，已经出现了多种多样的方法，无论是通过记忆一切（将其存储为语言模型的一部分）直接将其融入生成模型，还是在运行时从各种来源检索知识，这是我们倾向于采用的方法。” 现在我们拥有更丰富的环境和交互模态。所以你可以想象，要真正提出准确的方法来解释用户与嵌入其空间的多模态对话系统的交互，还需要我们再花20年时间。” 研究领域搜索和信息检索对话式AI标签常识推理多模态交互学术合作网络大会
18710编辑于 2025-12-19
来自专栏深度学习与python
跨语言的多模态、多任务检索模型 MURAL 解读
在 EMNLP 2021 提交的论文《MURAL：跨语言的多模态、多任务检索》（MURAL: Multimodal, Multitask Retrieval Across Languages）中，我们描述了一种用于图像各种多语言图像-文本检索基准的平均召回率。平均召回率是用于评估图像 - 文本数据集的跨模态检索性能的常用指标（越高越好）。相对于 LaBSE 的可视化，MURAL 的嵌入更注重多模态的学习，表现出一些符合区域语言学（某一地理区域内的语言或方言共享元素）和接触语言学（语言或方言相互影响）的集群。此外，在使用多模态模型学习的文本表示中，观察区域语言学和接触语言学的提示也很有意思。因此，需要进一步探索通过多模态模型（如 MURAL）隐式学习到的各种联系。最后，我们希望这项工作能促进多模态、多语言空间的深入研究，在这个空间里，模型学习语言的表示和语言之间的联系（通过图像和文本表示），而不仅仅是资源丰富的语言。
1.5K30编辑于 2021-12-28
来自专栏自然语言处理(NLP)论文速递
Unimore| 提出多模态大模型检索生成架构：Wiki-LLaVA，大幅提升视觉QA性能！
引言多模态大模型是大模型发展的必然趋势，它拓展了大模型的性能，超越了纯文本问答模式。对于大模型来说，为了能够尽快适配快速变化的事实知识，目前常见的方法就是检索增强生成（RAG）。本文作者却专注研究了多模态大模型的检索增强生成，并提出了Wiki-LLaVA架构，将外部知识检索与MLLMs结合，显著提升在视觉QA任务中的性能，不仅增强了MLLMs的生成能力，而且还保持了模型在其它任务上的泛化性能紧跟大语言模型的发展，计算机视觉领域也开始探索将这类模型扩展到视觉语言，从而产生了多模态大型语言模型（MLLMs）。为此，本文提出了首个具备检索模块的多模态大模型（MLLM），使其能够利用响应中的多样化信息，并学习辨别每条信息的相对重要性。 Wiki-LLaVA 面对无法仅通过图像内容和预训练知识来解决的问题，Wiki-LLaVA旨在为多模态大模型（MLLMs）提供回答复杂和特定问题的能力。
1.1K10编辑于 2024-05-06
来自专栏自然语言处理(NLP)论文速递
【NLP论文速递】条件语言生成 && 多模态图文生成
引言好久没有给大家分享关于NLG的文章了，那么今天就给大家分享两篇关于文本生成的文章，首先第一篇是基于预训练Transformer的条件语言生成模型；然后第二篇是基于单一多模态模型的图文生成；最后 3、CNN/DailyMail 和 XSum 测试集上的抽象总结结果 4、在SQuAD数据集上文本生成的实验结果 2 多模型图文生成论文概要研究了图像到文本和文本到图像生成的联合学习针对这个问题中，文章提出了一个基于单一多模态模型的统一的图文生成框架来共同研究双向任务，如下图所示。现有的基于 Transformer 的文本到图像生成工作可以扩展到通过交换输入序列中文本和图像标记的顺序来支持图像到文本的生成。首先，我们引入了两级粒度特征表示，其中我们使用密集特征来减少图像到文本生成的信息损失，并使用离散特征来启用文本到图像生成。
1K100发布于 2021-11-26
来自专栏NLP/KG
探索检索增强生成（RAG）技术的无限可能：Vector+KG RAG、Self-RAG、多向量检索器多模态RAG集成
探索检索增强生成（RAG）技术的无限可能：Vector+KG RAG、Self-RAG、多向量检索器多模态RAG集成由于 RAG 的整体思路是首先将文本切分成不同的组块，然后存储到向量数据库中。 2.3 多向量检索器多模态 RAG 本小节涉及三种工作模式 [7]，具体为：半结构化 RAG（文本 + 表格）多模态 RAG（文本 + 表格 + 图片）私有化多模态 RAG（文本 + 表格 + 图片 2）多模态 RAG（文本 + 表格 + 图片）对多模态 RAG 而言，有三种技术路线 [10]，见下图：如图 7 所示，对多模态 RAG 而言有三种技术路线，如下我们做个简要说明：选项 1：对文本和表格生成然后将其喂给多模态 LLM 生成应答结果。选项 2：首先应用多模态大模型（GPT4-V、LLaVA、FUYU-8b）生成图片 summary。构造完整 Prompt，访问多模态大模型生成应答结果。 3）私有化多模态 RAG（文本 + 表格 + 图片）如果数据安全是重要考量，那就需要把 RAG 流水线进行本地部署。
5.2K45编辑于 2024-01-10
来自专栏DotNet NB && CloudNative
多模态RAG应用之实现文本检索视频内容
RAG实现文本到视频内容的检索概念介绍 RAG（Retrieval-Augmented Generation）： RAG 是一种结合了检索系统和大型语言模型优势的生成技术。而RAG技术通过从外部知识库中检索相关信息，再将这些信息与用户查询一起传递给语言模型，从而生成更加精准、相关且时效性强的内容。简单点就是说结合大模型和网络搜索的内容，整合后再返回给你，让你看到既新又准确的答案；多模态RAG：则是将RAG的理念扩展到多种数据模态中，包括文本、图片、音频、视频等。这种技术使得AI不仅能处理文本数据，还能理解和处理图片、音频等这些更多模态的数据；其实说白了就是普通RAG只支持文本，多模态拓展到图片、音视频；嵌入式模型：嵌入式模型（Embedding）是一种广泛应用于自然语言处理也是现在流行的RAG检索增强生成的基础。"
77310编辑于 2025-01-07
来自专栏机器之心
剑桥团队开源：赋能多模态大模型RAG应用，首个预训练通用多模态后期交互知识检索器
机器之心专栏机器之心编辑部 PreFLMR模型是一个通用的预训练多模态知识检索器，可用于搭建多模态RAG应用。图 1：GPT4-Vision 在 PreFLMR 多模态知识检索器的帮助下可以获得相关知识，生成正确的答案。图中展示了模型的真实输出。针对这个问题，检索增强生成（RAG，Retrieval-Augmented Generation）提供了一个简单有效的让多模态大模型成为” 领域专家” 的方案：首先，一个轻量的知识检索器（Knowledge 尤其是在多模态任务中，用户的问询（Query）包含复杂场景信息，压缩至一维向量极大抑制了特征的表达能力。PreFLMR 继承并改进了 FLMR 的结构，使其在多模态知识检索中有得天独厚的优势。实验结果表明对于后期交互多模态检索系统，增加视觉编码器的参数带来的回报更大。
1.8K11编辑于 2024-03-26
GPT-4.5多模态理解与生成能力分析
GPT-4.5作为OpenAI的最新多模态大模型，在视觉、音频和文本的交互理解与生成方面实现了重大突破。本文将深入分析GPT-4.5的多模态能力及其底层技术实现。统一的多模态架构GPT-4.5采用了全新的统一多模态编码-解码架构，打破了传统多模态系统中各模态处理管道相互割裂的局限。跨模态理解与生成GPT-4.5的真正突破在于其跨模态理解与生成能力，可以在不同模态间无缝转换和融合信息：图像到文本：不仅能描述图像内容，还能理解隐含的上下文和文化意义。 print(result)局限与未来方向尽管GPT-4.5的多模态能力已经相当强大，但仍存在一些局限：视觉生成能力有限：相比于专用的图像生成模型如DALL-E 3或Midjourney，GPT-4.5的图像生成能力相对基础跨模态幻觉：在多模态输入的情况下，幻觉问题可能会更加复杂，模型有时会"看到"图像中不存在的内容。音频生成质量：虽然能够生成音频，但质量和自然度仍不及专用的音频生成模型。
61510编辑于 2025-03-28
来自专栏CreateAMind
MetaMorph：通过指令微调实现多模态理解与生成
这些模型处理多模态输入——主要是图像和语言——并生成文本标记。受此启发，我们探究 LLM 是否也能以同样高效且有效的方式被微调以生成视觉信息。当前面向“统一”模型（即同时具备多模态理解与生成能力的模型）的尝试，通常将视觉生成视为与视觉理解正交的能力。 4.3 多模态生成中的推理能力在图 10 中，我们展示了若干示例，其中模型根据谜题式提示生成图像，例如：“黄石国家公园所在国家的国旗”。从多模态 LLM 到统一模型。近期构建统一模型（即同时支持理解与生成）的努力主要依赖于大规模预训练，或在数十亿规模数据集上进行重度微调。例如，它能完成通常需要多步推理的多模态任务，如生成特定专有名词的图像（“乔戈里峰”），或解答视觉谜题（“生成君主斑蝶毛虫蜕变后的动物图像”）。
16910编辑于 2026-03-11
来自专栏机器之心
AAAI 2023｜基于多模态标签聚合的视频检索模型TABLE，多项SOTA
在 QQ 浏览器搜索中，视频通常包含标题、封面图、视频帧、音频等多种模态信息，因此视频检索模型引入了多模态特征，以刻画 query 与视频在多个模态上的相关程度，并进行综合排序，提升视频搜索结果的整体满意度针对以上问题，我们提出了一个新的以多模态标签为引导的视频 - 文本检索模型：TABLE（TAgging Before aLignmEnt）。为有效、高效地融合不同模态的信息，我们使用标签域作为融合的桥梁，主要有以下两点优势：不同 experts 生成的 embedding 难以互相融合，而标签域的方式可以为不同模态信息生成统一、易解释的表征相比以往方法，TABLE 的优势可以总结如下：不仅将图文预训练的知识迁移到视频 - 文本检索任务，而且充分利用了视频的多模态信息，包括物体、人物、场景、动作、音频；多模态信息在标签域上进行融合，得到了统一的表征在算法方面，以自然语言处理、深度学习、多模态理解与生成、知识计算与应用等技术为基础，建设内容理解、相关性和排序、多模态搜索、智能问答、多语言翻译、搜索推荐等技术方向，探索和应用业界先进技术、打造更优秀的用户搜索体验
1.5K20编辑于 2023-03-29

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

生成式AI革新多模态信息检索

生成式AI革新多模态信息检索技术

生成式AI革新多模态信息检索技术

生成式AI实现多模态信息检索新突破

生成式AI实现多模态信息检索技术突破

生成式AI实现多模态信息检索新突破

RAG系统如何支持多模态检索？图文检索如何实现？

剑桥 | 发布多模态检索器，赋能多模态大模型RAG应用

以深度场景适配推动业务增长：多模态增强检索生成应用解决方案

KDD Cup 2020 多模态检索赛道：数据分析

网络大会聚焦信息检索与多模态AI技术

跨语言的多模态、多任务检索模型 MURAL 解读

Unimore| 提出多模态大模型检索生成架构：Wiki-LLaVA，大幅提升视觉QA性能！

【NLP论文速递】条件语言生成 && 多模态图文生成

探索检索增强生成（RAG）技术的无限可能：Vector+KG RAG、Self-RAG、多向量检索器多模态RAG集成

多模态RAG应用之实现文本检索视频内容

剑桥团队开源：赋能多模态大模型RAG应用，首个预训练通用多模态后期交互知识检索器

GPT-4.5多模态理解与生成能力分析

MetaMorph：通过指令微调实现多模态理解与生成

AAAI 2023｜基于多模态标签聚合的视频检索模型TABLE，多项SOTA

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐