搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

数据万象（CI）多模态智能检索服务技术概要
一、产品定位与核心亮点数据万象（Cloud Infinite, CI）多模态智能检索是腾讯云推出的基于 COS（对象存储）的一站式智能数据处理服务。其核心技术属性在于利用自研特征提取服务及检索引擎，将非结构化数据（图片、视频、音频、文档）转化为向量特征，并映射到统一特征空间，实现跨模态检索。商业差异化卖点：多模态融合：支持文本、图片、视频等多种模态数据的混合检索。场景深度适配：自研引擎特别适配中文电商场景，解决了通用检索在垂直领域的语义理解偏差。检索机制创新：结合结构化标签与向量数据（Hybrid Search + Rerank），解决非结构化数据占比高、文件小数量多导致的检索低效问题。支持输入检索文本/图片/视频，进行 Embedding 相似度对比。成效：实现跨模态检索（以文搜视频、以图搜视频）。支持从数十亿文件中快速查询，辅助构建智能相册或内容审核。
9600编辑于 2026-05-31
来自专栏#大模型热点基础知识
RAG系统如何支持多模态检索？图文检索如何实现？
二、什么是多模态检索？多模态检索（MultimodalRetrieval）是指系统能够处理多种数据类型（如文本、图像、音频、视频等），并将它们映射到统一的向量空间，实现跨模态的相似度匹配。多模态检索的三种模式：检索模式查询类型返回类型应用场景文查图文本图像"找一件红色连衣裙"图查文图像文本上传图片找商品描述图查图图像图像找相似款式三、多模态检索如何工作跨模态对齐：从对比学习到统一空间实现跨模态对齐的关键技术是对比学习跨语言多模态检索：支持不同语言的文本和图像进行跨语言、跨模态的检索。比如用中文描述检索英文商品图片，或者用日文描述检索中文设计素材。它让机器能够像人类一样，通过多种感官（视觉、听觉、文字）来理解和检索信息，这是人工智能向更自然、更智能方向发展的重要一步。总结：多模态检索通过跨模态对齐技术，实现了不同数据类型在同一语义空间的对话。多模态AI的发展，正是在模拟这种自然的智能方式。真正的智能不在于单一模态的极致，而在于多模态信息的融合与理解。这不仅是一个技术挑战，更是对智能本质的探索。
51710编辑于 2026-03-25
来自专栏自然语言处理(NLP)论文速递
剑桥 | 发布多模态检索器，赋能多模态大模型RAG应用
PreFLMR模型是一个通用的预训练多模态知识检索器，可用于搭建多模态RAG应用。近期，剑桥大学信息工程系人工智能实验室完整开源了首个预训练、通用多模态后期交互知识检索器 PreFLMR （Pre-trained Fine-grained Late-interaction Multi-modal 尤其是在多模态任务中，用户的问询（Query）包含复杂场景信息，压缩至一维向量极大抑制了特征的表达能力。PreFLMR 继承并改进了 FLMR 的结构，使其在多模态知识检索中有得天独厚的优势。实验结果表明对于后期交互多模态检索系统，增加视觉编码器的参数带来的回报更大。结论剑桥人工智能实验室提出的 PreFLMR 模型是第一个开源的通用后期交互多模态检索模型。经过在 M2KR 上的百万级数据预训练，PreFLMR 在多项检索子任务中展现出强劲的表现。
62910编辑于 2024-03-26
生成式AI革新多模态信息检索
利用生成式AI进行多模态信息检索过去十年的大部分时间里，机器学习严重依赖于嵌入的概念：模型学习将输入数据转换为向量，使得向量空间内的几何关系具有语义含义。嵌入概念意味着一个明显的信息检索范式：查询被嵌入到表示空间中，模型选择嵌入最接近它的响应。这也适用于多模态信息检索，因为文本和图像可以被嵌入到同一个空间。然而，最近生成式AI主导了机器学习研究。我们的模型被命名为GENIUS，是一个多模态模型，其输入和输出可以是图像、文本或图文对的任意组合。然而，现有的生成方法通常是特定于任务的，在性能上不及基于嵌入的方法，并且难以处理多模态数据。随着数据集的增长，其效率优势变得更加显著，无需像基于嵌入的方法那样进行昂贵的索引构建即可保持高检索速度。因此，它代表了生成式多模态检索领域的重要进展。FINISHED
19810编辑于 2026-02-01
来自专栏强化学习专栏
多模态智能的发展
本篇文章是博主在人工智能等领域学习时，用于个人学习、研究或者欣赏使用，并基于博主对人工智能等领域的一些理解而记录的学习摘录和笔记，若有不当和侵权之处，指出后将会立即改正，还望谅解。文章分类在学习摘录和笔记专栏：学习摘录和笔记（18）---《多模态智能的发展》多模态智能的发展 1 多模态智能定义多模态智能旨在融合多种模态的信息进行处理实现智能应用将多模态信号统一到同一个向量空间中，从而实现了多模态信号的交叉处理。多模态表示：由于其复杂的跨模态交互作用和各模态训练数据与测试数据之间可能存在的失配问题，仍然是一个具有挑战性的问题。 2 多模态智能融合的发展融合是多模态研究中的一个关键问题，它将从不同单模态数据中提取的信息整合到一个紧凑的多模态表示中。
35910编辑于 2024-12-03
生成式AI革新多模态信息检索技术
这种嵌入概念意味着一种直观的信息检索范式：查询被嵌入到表示空间中，模型选择其嵌入与之最接近的响应。这同样适用于多模态信息检索，因为文本和图像（或其他模态）可以嵌入到同一空间中。然而，近年来生成式人工智能已主导机器学习研究。在2025年计算机视觉与模式识别会议（CVPR）上，一项研究提出了更新机器学习信息检索范式以适应生成式AI时代的方法。该模型名为GENIUS，是一个多模态模型，其输入和输出可以是图像、文本或图文对的任意组合。然而，现有的生成方法通常是任务特定的，与基于嵌入的方法相比性能不足，并且难以处理多模态数据。其效率优势随着数据集的增长而变得更加显著，在无需进行基于嵌入方法中昂贵的索引构建的情况下，保持高检索速度。因此，它代表了生成式多模态检索领域的重要一步。
36910编辑于 2025-12-17
生成式AI革新多模态信息检索技术
嵌入概念意味着一个直观的信息检索范式：查询被嵌入到表示空间中，模型会选择嵌入最接近它的响应。这也适用于多模态信息检索，因为文本和图像（或其他模态）可以嵌入到同一空间。我们的模型名为GENIUS（意为生成式通用多模态搜索），是一个多模态模型，其输入和输出可以是图像、文本或图文对的任意组合。然而，现有的生成方法通常是任务特定的，与基于嵌入的方法相比性能不足，并且难以处理多模态数据。 GENIUS与仅限于单模态任务或特定基准的先前方法不同，GENIUS可推广到文本、图像和图文对的检索，同时保持高速度和有竞争力的准确性。随着数据集的增长，其效率优势变得更加显著，无需像基于嵌入方法那样进行昂贵的索引构建即可保持高检索速度。因此，它代表了生成式多模态检索的重大进步。
35110编辑于 2026-01-09
腾讯云数据万象：多模态智能检索方案结构化解析
一、产品定位与核心亮点腾讯云数据万象（Cloud Infinite, CI）多模态智能检索是一款基于腾讯云对象存储（COS）构建的一站式数据处理智能平台。其核心技术属性在于：依托数据万象大语言模型与自研元数据管理平台，将文本、图像、视频等不同模态的数据特征提取并映射至统一特征空间（Embedding），从而实现跨模态的语义比对与检索。二、产品应用场景本产品主要面向拥有海量非结构化数据（特别是互联网、电商、媒体、AIGC企业）的业务团队，解决其在数据存储、二次加工处理及精准调取时面临的“文件小数量多、检索低效”痛点。特征匹配：执行搜索指令时，通过检索条件（智能检索/向量检索、KV查询）进行 Embedding 相似度计算（支持Hybrid Search与Rerank）。 3.3 产品优势能力（全功能矩阵）产品具备极其丰富的数据后处理能力（AIGC后期处理），功能点全景如下：跨模态检索能力：支持以文搜图、以图搜图、以图搜视频、以视频搜视频。
15600编辑于 2026-05-31
生成式AI实现多模态信息检索新突破
多模态信息检索的生成式革新过去十年间，机器学习（ML）严重依赖嵌入（embedding）概念：模型将输入数据转换为向量，使向量空间中的几何关系具有语义含义。例如，嵌入位置相近的单词可能含义相似。这种范式下的信息检索流程是：将查询嵌入表示空间，模型选择与之最接近的嵌入作为响应。多模态检索也遵循此模式，文本和图像可嵌入同一空间。然而随着生成式AI的兴起，传统检索方式面临革新。在2025年计算机视觉与模式识别会议（CVPR）上提出的GENIUS框架（通用多模态搜索生成框架），实现了生成式AI时代的信息检索突破。该模型支持图像、文本及图文对的任意组合输入输出。嵌入检索(a)需逐项比对查询与候选向量，而生成式检索(b/c)直接生成唯一ID。GENIUS(c)的首位ID码标识输出模态。（免索引构建、恒定检索时间）的同时，将生成式与嵌入式方法的性能差距缩小到可接受范围，标志着多模态检索领域的重大进步。
51300编辑于 2025-08-04
来自专栏Datawhale专栏
KDD Cup 2020 多模态检索赛道：数据分析
近期对图像检索颇为感兴趣，正巧看到今年KDD Cup赛题中有两道都是它相关的，借着这次机会学习学习。本赛题使用淘宝APP的真实场景多模态数据，数据集由淘宝搜索查询和产品图像特征组成，组织成基于查询的多模态检索任务。需要注意本次赛题不是文本匹配任务，而关注跨模态的检索过程，因此不会给出商品的原始文字描述。本赛题主要考察跨模态的检索检索任务，而且数据量非常大，需要选手通过query文本检索到商品，具体使用检索指标进行量化： (1) 这一题典型的跨模态检索任务，由于测试集中每个query会给出可能的30个商品，因此也可以使用多模态匹配的方法。
1.5K10发布于 2020-04-17
生成式AI实现多模态信息检索新突破
多模态检索的范式革新过去十年间，机器学习主要依赖嵌入技术——将输入数据转换为向量，使向量空间中的几何关系反映语义关联。传统检索方式需计算查询向量与所有候选向量的相似度，当面对海量数据时效率低下。性能突破在M-BEIR基准测试中：文本到图像检索任务（COCO数据集）Recall@5指标超越现有生成式方法28.6分结合嵌入重排序后，性能差距较传统方法缩小31%-56%检索速度不受数据库规模影响，索引构建成本降低独立训练图像和文本编码器对比学习阶段undefined残差量化模块学习生成层级编码推理阶段undefined基于Trie树结构约束输出序列，确保生成有效ID该技术已应用于某机构搜索系统，在十亿级数据规模下保持毫秒级响应，为跨模态检索提供高效解决方案
30810编辑于 2025-08-04
生成式AI实现多模态信息检索技术突破
利用生成式AI进行多模态信息检索过去十年间，机器学习主要依赖嵌入概念：模型学习将输入数据转换为向量，使得向量空间中的几何关系具有语义含义。例如，嵌入表示相近的词语可能具有相似含义。这种嵌入概念催生了明显的信息检索范式：将查询嵌入表示空间，模型选择嵌入最接近的响应。这也适用于多模态信息检索，因为文本和图像可以嵌入同一空间。我们的模型名为GENIUS（通用多模态搜索生成框架），是一个多模态模型，其输入和输出可以是图像、文本或图文对的任意组合。然而，现有的生成方法通常是任务特定的，在性能上不及基于嵌入的方法，并且难以处理多模态数据。随着数据集增长，其效率优势变得更加显著，保持高检索速度，而无需基于嵌入方法典型的昂贵索引构建。因此，它代表了生成式多模态检索的重要进展。
39410编辑于 2025-10-12
来自专栏深度学习与python
跨语言的多模态、多任务检索模型 MURAL 解读
在 EMNLP 2021 提交的论文《MURAL：跨语言的多模态、多任务检索》（MURAL: Multimodal, Multitask Retrieval Across Languages）中，我们描述了一种用于图像各种多语言图像-文本检索基准的平均召回率。平均召回率是用于评估图像 - 文本数据集的跨模态检索性能的常用指标（越高越好）。相对于 LaBSE 的可视化，MURAL 的嵌入更注重多模态的学习，表现出一些符合区域语言学（某一地理区域内的语言或方言共享元素）和接触语言学（语言或方言相互影响）的集群。此外，在使用多模态模型学习的文本表示中，观察区域语言学和接触语言学的提示也很有意思。因此，需要进一步探索通过多模态模型（如 MURAL）隐式学习到的各种联系。最后，我们希望这项工作能促进多模态、多语言空间的深入研究，在这个空间里，模型学习语言的表示和语言之间的联系（通过图像和文本表示），而不仅仅是资源丰富的语言。
1.7K30编辑于 2021-12-28
网络大会聚焦信息检索与多模态AI技术
知识与多模态最让学者感兴趣的研究趋势之一是将结构化和非结构化知识及推理融入用于对话式信息检索和推荐系统的自然语言处理模型。“我可以举一个与我们工作密切相关的例子，”他说。例如，为了推荐一部电影，智能体需要表示对话上下文，并检索关于电影本身的有用知识，理想情况下，还应提供关于是什么使这部电影适合用户的相关信息。” 得益于Alexa等产品，对话界面已变得无处不在，但关于这些智能体在现实世界中如何与用户互动，并结合屏幕和可用传感器等其他模态，这是一个完全开放的领域。现在我们拥有更丰富的环境和交互模态。所以你可以想象，要真正提出准确的方法来解释用户与嵌入其空间的多模态对话系统的交互，还需要我们再花20年时间。” 研究领域搜索和信息检索对话式AI标签常识推理多模态交互学术合作网络大会
23610编辑于 2025-12-19
来自专栏DotNet NB && CloudNative
多模态RAG应用之实现文本检索视频内容
但现在很多平台或者应用有大量的视频，还有某些跟视频打交道的应用比如视频编辑器，视频自动化处理工具等，这些工具如果只有简单的文本搜索就远远不够用了，搜索体验肯定会大打折扣；由此引出我们今天的主题：如何使用多模态简单点就是说结合大模型和网络搜索的内容，整合后再返回给你，让你看到既新又准确的答案；多模态RAG：则是将RAG的理念扩展到多种数据模态中，包括文本、图片、音频、视频等。这种技术使得AI不仅能处理文本数据，还能理解和处理图片、音频等这些更多模态的数据；其实说白了就是普通RAG只支持文本，多模态拓展到图片、音视频；嵌入式模型：嵌入式模型（Embedding）是一种广泛应用于自然语言处理也是现在流行的RAG检索增强生成的基础。" 0.4851664642889189 图片1&3的余弦相似度是:0.14224603129566593 对比结果准确，图片1&2摩托车的相似度远远大于1&3摩托车和猫的；处理视频数据这里重申本文目标：使用多模态
97410编辑于 2025-01-07
来自专栏无敌清风蓝
多模态遥感智能解译基础模型
1.2遥感大数据的基本特质背景：美国的PlanetScope卫星星座，每天可对全球陆地全覆盖监测一次大数据的特质：大量化，多样化，快速化，价值密度低遥感独特的特质： 1.多传感：空间/光谱分辨率越高，对目标细节特征的描述越充分成像传感器非成像传感器 2.多分辨：获取同一区域的地物特性也不同不同类型传感器的成像机理不同 3.多时相：不同时相的变化过程，能够获取目标区域更丰富的属性信息 4.多要素 :是一个包含多类要素的信息全集，面向不同应用提供定制化服务那有了这么多数据信息，我们需要做的是哪些事情呢 1.3遥感图像解译任务利用某些标志直接在图像上识别地物或现象的性质、类型和状况，或通过已识别出的地物或现象城市变化分析、灾害评估、轮作监测等 1.3.5遥感图像描述根据输入的图像，生成一句 (段)描述的文字特点:不仅需检测图像中的物体，还需能理解物体间的关系需结合一定自然语言处理技术 1.3.6遥感图像检索当前阶段采用“基础模型”+“下游任务” 模式 2.5.5问题挑战样本数据模型结构下游任务 2.5.6总体方案 2.5.7采取措施样本数据基础模型下游任务轻量化 3.典型场景应用 3.1多累地物要素精细分类
93610编辑于 2024-06-04
来自专栏机器之心
剑桥团队开源：赋能多模态大模型RAG应用，首个预训练通用多模态后期交互知识检索器
机器之心专栏机器之心编辑部 PreFLMR模型是一个通用的预训练多模态知识检索器，可用于搭建多模态RAG应用。近期，剑桥大学信息工程系人工智能实验室完整开源了首个预训练、通用多模态后期交互知识检索器 PreFLMR （Pre-trained Fine-grained Late-interaction Multi-modal 尤其是在多模态任务中，用户的问询（Query）包含复杂场景信息，压缩至一维向量极大抑制了特征的表达能力。PreFLMR 继承并改进了 FLMR 的结构，使其在多模态知识检索中有得天独厚的优势。实验结果表明对于后期交互多模态检索系统，增加视觉编码器的参数带来的回报更大。结论剑桥人工智能实验室提出的 PreFLMR 模型是第一个开源的通用后期交互多模态检索模型。经过在 M2KR 上的百万级数据预训练，PreFLMR 在多项检索子任务中展现出强劲的表现。
1.8K11编辑于 2024-03-26
来自专栏爬虫资料
多模态AI爬虫：文本+图像智能抓取实战
一个AI模型训练任务引发的爬虫危机上个月，公司AI组向我们数据组提出一个“看似简单”的需求：训练一个能识别商品种类的多模态模型，数据来源不限，但要求包含图像 + 商品文本 + 价格 + 折扣信息。我们意识到：IP频率检测非常敏感navigator.webdriver 检测等自动化识别也在阻挡图片链接多为懒加载或动态构造于是我们准备全面升级：使用代理IP + 用户模拟持久化 + 多模态解析的组合拳多模态AI爬虫的架构搭建与实战代码我们拆解了需求，决定使用 requests + lxml + Pillow，结合爬虫代理IP服务，实现一个具备图像和文本提取能力的智能爬虫。多模态爬虫不只是“图+文”的堆砌这次任务结束后，我们做了复盘。爬虫不仅是“爬”，而是感知 + 策略 + 多模态融合的过程：图像获取并不是保存URL，而是要稳定下载并落地保存，才能用于模型训练。这次经历也启发我们后续开发了一套自动化“关键词 → 多模态样本”生成工具，真正走上了AI时代下数据爬虫的新台阶。
53710编辑于 2025-06-12
来自专栏《C++与 AI：个人经验分享合集》
《多模态融合：开启智能新时代的钥匙》
在当今数字化时代，多模态数据融合已成为人工智能领域的热门话题。从智能手机、智能穿戴设备到自动驾驶汽车，我们身边的各种智能产品都在不断利用多模态数据融合技术，以提供更加丰富、准确和智能的服务。多模态融合的方法早期融合早期融合是在数据采集阶段就将不同模态的数据进行合并。例如，在智能机器人的传感器中，同时采集语音和图像数据，然后将它们一起进行处理。多模态融合的应用智能医疗在医疗领域，多模态融合可以帮助医生更准确地诊断疾病。例如，通过结合医学影像、患者的病历和基因信息等多种模态数据，医生可以更全面地了解患者的病情，提高诊断的准确性。智能教育在教育领域，多模态融合可以提供更加丰富的学习体验。例如，通过结合多媒体教学资源、学生的学习反馈和在线学习平台等多种模态数据，学生可以更好地理解和掌握知识。多模态融合的未来展望随着人工智能技术的不断发展，多模态融合将成为未来智能发展的重要趋势。未来，我们可以期待更多创新的应用场景，如智能机器人、智能家居、虚拟现实等。
77510编辑于 2025-01-02
来自专栏小耶转行干货分享
向量数据库详解：RAG 系统的核心引擎与多模态检索
常用模型：文本：OpenAItext-embedding-3-large（1536维）、BGE（1024维）图像：CLIP、ResNet多模态：CLIP（可以同时编码图文）向量检索的本质就是计算两个向量的距离这种方案的设计理念是“多模一体”——向量不是孤岛，而是数据库内置的一种数据类型，可以和关系表、JSON、GIS放在同一个SQL里混合查询。向量索引将检索从分钟级降到毫秒级。其他应用场景：推荐系统（用户向量+商品向量召回）、多模态检索（以图搜图）、异常检测（离群点识别）、去重聚类等。信创环境+多模需求：KingbaseESV9是目前国内较完整的一体化方案。向量数据库不是“传统数据库的替代品”，而是AI应用时代的新基建。选型时不需要盲目跟风，更不要被厂商的“跑分”迷惑——先搞清楚自己的数据规模、是否需要多模关联、团队运维能力，再对号入座。技术选型这件事，适合的才是最好的。
14800编辑于 2026-06-10

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

数据万象（CI）多模态智能检索服务技术概要

RAG系统如何支持多模态检索？图文检索如何实现？

剑桥 | 发布多模态检索器，赋能多模态大模型RAG应用

生成式AI革新多模态信息检索

多模态智能的发展

生成式AI革新多模态信息检索技术

生成式AI革新多模态信息检索技术

腾讯云数据万象：多模态智能检索方案结构化解析

生成式AI实现多模态信息检索新突破

KDD Cup 2020 多模态检索赛道：数据分析

生成式AI实现多模态信息检索新突破

生成式AI实现多模态信息检索技术突破

跨语言的多模态、多任务检索模型 MURAL 解读

网络大会聚焦信息检索与多模态AI技术

多模态RAG应用之实现文本检索视频内容

多模态遥感智能解译基础模型

剑桥团队开源：赋能多模态大模型RAG应用，首个预训练通用多模态后期交互知识检索器

多模态AI爬虫：文本+图像智能抓取实战

《多模态融合：开启智能新时代的钥匙》

向量数据库详解：RAG 系统的核心引擎与多模态检索

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐