Q&A 分享嘉宾|郭清沛 蚂蚁集团 高级算法专家 出品社区|DataFun 01 概述 视频多模态检索在蚂蚁内部有着广泛的应用。 视频多模态检索具体包括两个方向,一个是视频-文本的语义检索,另外一个是视频-视频的同源检索。 主要介绍了视频多模态检索的两个方向,一个是视频-文本语义检索,另外一个是视频-视频同源检索。 我们是蚂蚁智能引擎多模态认知团队,我们始终致力于招聘人才,目前正在进行中的招聘涵盖了多个领域,不仅限于今天详细介绍过的发展方向。我们主要的研究方向包括多模态大模型、视频大模型以及版权检索等。 Q8:视频特征是如何通过融合关键帧的特征提取到的?
文章目录 多模态技术基础 1,多模态融合架构(神经网络模型的基本结构形式) 1.1联合架构 1.2协同架构 1.3编解码架构(自监督) 2,多模态融合方法 2.1早期融合 2.2 晚期融合 2.3混合融合 多模态技术主要要素:表示(Representation),融合(Fusion)、转换(Translation)、对齐(Alignment)。 解决这一问题可将异构特征投影到公共子空间,其中具有相似语义的多模态数据将由相似向量表示。多模态融合技术的主要目标是缩小语义子空间中的分布差距,同时保持模态特定语义的完整性。 3,模态对齐方法 模态对齐是多模态融合关键技术之一,是指从两个或多个模态中查找实例子组件之间的对应关系。例如,给定一个图像和一个标题,希望找到图像区域与标题单词或短语的对应关系[72]。 监督方法 有监督对齐技术是从无监督的序列对齐技术中得到启发,并通过增强模型的监督信息来获得更好的性能,通常可以将上述无监督方法进行适当优化后直接用于模态对齐。
新智元报道 来源:智源研究院 【新智元导读】最近,智源研究院开源了全新的统一多模态预训练模型——Emu。不仅在8项基准测试中表现优异,而且还超越了此前的一众SOTA。 超越了此前DeepMind的多模态大模型Flamingo,Emu刷新8项性能指标;并且模型能力覆盖图像与文本的生成及视频理解,更通用,能完成任意图生文以及文生图的多模态任务。 在8个涵盖多模态图像/视频和语言任务的基准测试中,Emu均有不俗表现,对比来自DeepMind的Flamingo 与来自微软的 Kosmos 亦有所超越。 表2 在few-shot (k = 2,4,8) 推理设置下,Emu在图像问答和视频问答任务中的表现 全能高手:在多模态序列中进行「图文任意模态生成」 Emu模型能力覆盖图像与文本的生成及视频理解,相比其他多模态模型更具通用性 视频理解、多模态上下文生成、多模态对话是Emu模型的技术亮点。
关注公众号,发现CV技术之美 ▊ 写在前面 预训练的视觉语言BERT的目标是学习结合两种模态的表征。 Motivation 视觉语言BERT模型扩展了BERT架构,以生成多模态输入的跨模态上下文表示。当对一系列下游任务进行微调时,这些模型已被证明是非常有效的。 如果测试过程中,去除某个模态的信息,对最终结果影响很大,那这个模态在最终预测的时候就是有用的;否则这个模态就是没用的。 多模态模型在预测时使用由多模态输入触发的跨模态激活。 这是原始的多模态设置,因此,有效使用多模态信息的模型应该表现最好。 Object: 在这里,作者只删除与对齐的文本短语相对应的图像区域,该模型仍然可以使用周围的视觉上下文特征 。 测试的模型显示了vision-for-language,而不是language-for-vision的结果,这一事实可能是多模态任务的积累,因为一些下游多模态任务需要强烈的 vision-for-language
第3章 读懂ChatGPT的核心技术 基于Transformer的预训练语言模型 原始 Transformer 模型以编码器 ( Encoder )-解码器( Decoder )架构 编码器 ( Encoder oSoftMax函数:将多酚类输出值转转换为[0,1]之间的概率分布,且概率和为1. 这批数据的总量不大,但是其种类丰富,包含了基于各个任务的多轮对话数据。 GPT-3 文本生成、多轮对话、机器翻译方面、智能问答具有优势。 3、GPT 原创性地使用了基于人工反馈的强化学习技术。 ChatGPT ·ChatGPT 补充了数十亿行的 GitHub 代码数据。
其中短视频的应用场景下,内容标签技术是内容理解的一个重要手段。本文主要给大家介绍多模态短视频内容标签技术及在爱奇艺的相关应用。 全文共分为五个部分重点解读: 一、什么是内容标签 二、提取内容标签的方法 三、多模态短视频内容标签的难点 四、模型的迭代之路 五、内容标签的主要应用场景 一、什么是内容标签: 提到标签,推荐系统里面使用比较广泛的是内容标签和类型标签 本质上内容标签和另一个我们经常使用的关键词抽取技术非常类似。但不同的是我们做内容标签的一个重要出发点是为了推荐系统来对各种内容生成标签。
该专题将深入解析多模态大模型的技术原理,探讨其在智能客服、智能驾驶等领域的创新应用,展示多模态大模型如何实现语音、文本、图像等协同交互。 实现跨模态“图文对齐”,到 DALL·E 掀起文生图革命,多模态技术正打破单一感知的边界。 认为未来多模态技术会是开源更强还是闭源更强? 赵波:多模态技术中,处理不同模态数据(如视频、图像、文本)时,分别面临的核心技术挑战是什么? 邵帅: 目前最核心的难题在于多模态对齐与融合的问题。 目前这个矛盾在短期内仍将显著影响我们的技术选型。为此我们正在推进多项优化工作:包括采用更高效的视频编码器、实施 token 压缩技术,以及探索大模型的 INT8 量化方案等。
在过去的一年中,GitHub上涌现出了许多优秀的LLM多模态融合技术和工具,如GPT-4V、Claude 3 Opus、LLaVA等,这些技术和工具为LLM的多模态应用奠定了基础。 2. 核心发现/更新点 通过对GitHub上最新LLM多模态融合技术项目的深入分析,我们发现了以下几个关键趋势和更新点: 多模态融合成为LLM发展的重要方向:多模态融合已经成为LLM技术发展的重要方向,能够拓展 技术或研究拆解 3.1 LLM多模态融合技术分类 3.2 视觉-语言融合 视觉-语言融合是LLM多模态融合的重要方向,旨在将文本和图像信息进行融合,实现跨模态的理解和生成。 推动AI技术发展:多模态融合技术是AI技术发展的重要方向,能够推动计算机视觉、自然语言处理、语音识别等多个领域的技术进步。 未来,随着更强大的多模态理解能力、更高效的模型架构、更精细的模态控制、更广泛的模态支持和更智能的多模态交互的出现,LLM多模态融合技术将进一步发展,推动AI技术在更多领域的广泛应用。
·深度学习时代(2010-2019年):多模态技术快速发展,这主要得益于以下3点: o算力快速发展。 o新的多模态数据集层出不穷。 o语言特征提取能力和视觉特征提取能力快速提高。 o多模态学习关注的是多个不同模态数据之间的语义对齐,利用多模态数据构建多模态模型来提高传统单模态算法推理的准确性。 跨模态 典型应用领域是跨模态检索,例如通过文本检案图像、通文本检索视频等公共空间特征学习拉术跨模态相似性检索技术 多模态大模型发展的重大里程碑 大规模预训练模型的最大优势就是在预训练的过程中经过了大批量数据的训练 2,基于多模态对齐数据训练多模态大模型 VideoBERT、CLIP、CoCa、CoDi。 第二个阶段,基于15 万条多模态指令数据,对多模态大模型进行端到端的指令微调,具体针对视觉问答和多模态推理任务进行模型训练。
中小型公司大模型构建之路 如何选择 自己建立 二次开发 重新训练,消耗非常巨大 现有的大模型体系已经非常丰富 对话大模型已经白热化 •三天产生一个小应用 •两天产生一个新模型 中小公司的技术实力相对薄 低秩适配) 2022年 Edward J.Hu PLM(Pre-trained Language Model 预训练语言模型) AdaLoRA Qingru Zhang 等人 AdaLoRA技术采用了一种有效的策略来调整增量阵的分配 框架 零冗余优化器 ( Zero Redundancy Optimizer,ZeRO) •优化器状态分区(ZeRO-1) •梯度分区 (ZeRO-2) •参数分区(ZeRO-3) 压缩 剪枝 剪枝技术通过理结果产生重要影响 分类 •非结构化剪枝 •使用技术A或B的一个或多个通道 •A 滤波 •B 权重矩阵 •分类 •权值剪枝 •神经元剪枝 •结构化剪枝 •又名:滤波器剪枝 •分类 •Filter-wise •Channel-wise 学生网络 ( Student Network) 量化压缩 从高精度转换为低精度 分类 •线性量化压缩 •非线性量化压缩 实战 微调实战 全参数微调实战 部分参数微调实战 压缩实战 8
技术架构概述组织通过生成式AI网关架构快速部署和集成新模型获得竞争优势。这种统一接口方法简化了对多个基础模型的访问,解决了关键挑战:专业AI模型激增,每个模型都具有独特功能、API规范和要求。 核心挑战与解决方案协议转换架构系统需要桥接Poe的事件驱动ServerSentEvents协议与某中心Bedrock基于REST的API,主要技术挑战包括:挑战类别技术问题源协议目标协议集成复杂度协议转换 )高认证桥接JWT验证与AWS SigV4签名连接JWT令牌验证AWS SigV4认证中响应格式转换JSON响应适配为预期格式标准JSON结构自定义格式要求中配置驱动部署系统采用模板化配置方法实现快速多机器人部署 enable_image_comprehension=True, streaming=True, max_tokens=1300, **DEFAULT_CHAT_CONFIG )}关键技术组件协议转换层实现 性能指标对比指标之前(直接API)之后(包装器API)改进新模型部署2-3天15分钟96倍加速代码变更需求500+行20-30行95%减少测试时间8-12小时30-60分钟87%减少架构优势该统一包装器
知识整合与多模态交互最令Agichtein感兴趣的研究趋势之一是将结构化和非结构化知识及推理融入自然语言处理模型,用于对话式信息检索和推荐系统。" 由于Alexa等产品的普及,对话界面已无处不在,但这些代理在现实世界中如何与用户交互,以及与屏幕和可用传感器等其他模态结合,仍是一个完全开放的领域。"" 可以想象,我们还需要另外20年才能真正提出准确的方法来解释用户与嵌入用户空间的多模态对话系统的交互。"
这也适用于多模态信息检索,因为文本和图像(或其他模态)可以嵌入到同一空间。然而,最近,生成式AI开始主导ML研究。 我们的模型名为GENIUS(意为生成式通用多模态搜索),是一个多模态模型,其输入和输出可以是图像、文本或图文对的任意组合。 然而,现有的生成方法通常是任务特定的,与基于嵌入的方法相比性能不足,并且难以处理多模态数据。 每个ID实际上是一个代码序列,第一个代码定义了数据项的模态——图像、文本或图文对。 因此,它代表了生成式多模态检索的重大进步。研究领域搜索与信息检索标签生成式AI关于作者Sungyeon Kim 是浦项科技大学(POSTECH)计算机视觉实验室的博士后研究员。
多模态大模型核心技术 1多模态的困难 困难 数据集标志困难 人工标注生成 COCO Visual Genome ... 数据表征 多模态转换 2文本多模态技术 图像生成文本方法 基于模板的图像描述方法 支持向量机(SVM) 3种元索 物体 动作 场景 基于检索的图像描述方法 搜寻相似之处 基于深度学习的图像描述方法 提取图像特征,加人噪声作为输人,使用LSTM 网络生成句子 判别器:用 LSTM 网络对句子(生成器生成的句子和真实的句子 )进行编码,与图像特征一起处理,得到一个概率值用以约束生成器的质量 3 图像多模态技术 组成:3层降采样块和3层条件上采样块 微软的 Natural Speech 2:结合了扩散模型的概念,通过使用神经语音编将语音波形转换为连续向量,然后使用解码器重建语音波形 5 视频多模态技术 挑战 Long-Range Attention,QLoRA)技术 8 GPT-4多模型核心技术介绍 Transformer:编码器-解码器框架 编码器:衍生出了自编码大模型,如BERT、RoBERT和ALBERT
这同样适用于多模态信息检索,因为文本和图像(或其他模态)可以嵌入到同一空间中。然而,近年来生成式人工智能已主导机器学习研究。 该模型名为GENIUS,是一个多模态模型,其输入和输出可以是图像、文本或图文对的任意组合。 然而,现有的生成方法通常是任务特定的,与基于嵌入的方法相比性能不足,并且难以处理多模态数据。 为了解决这个限制,采用了查询增强技术。对于具有代表性的查询-ID对样本,通过在表示空间中对初始查询和目标ID进行插值来生成新的查询。这样,模型学习到多种查询可以映射到同一目标,这有助于其泛化。 因此,它代表了生成式多模态检索领域的重要一步。
国内外多模态大模型对比 国内 LLaMA-Adapter V2 香港中文大学 双语输出 输入 •图像 •语音 •文本 •视频 • 3D 点云 起源:LLaMA-Adapter •在线性层上进行偏差调整 多模态大模型评测数据集 国内评测数据集 OwlEval •基于mPLUG-Owl模型发布 • 包含 •50 张图片 •82 个回题 •功能 •故事生成 •广告生成 •代码生成 MME •开发 •结构 •265 016张图片 •每张图片至少有 3 个问题(平均 5.4个每个问题) •每个问题 •有 10 个基本事实答案 •有 3 个合理(但可能不正确)的答案 多模态大模型的评测标准 国内评测标准 •KROCC( Kendall Rank Order Correlation Coefficient,肯德尔秩相关系数) •RMSE( Root Mean Square Error,均方根误差 ) 多模态大模型对比
在本文中,追踪多模态大模型最新热点,讨论多模态关键技术以及现有在情绪识别上的应用。 ,并且提供了现有主流的 26 个多模态大模型的简介,总结了提升多模态大模型性能的关键方法,多模态大模型脱胎于大模型的发展,传统的多模态模型面临着巨大的计算开销,而 LLMs 在大量训练后掌握了关于世界的 多模态大模型的整体架构可以被归类为如下图的五个部分,整个多模态大模型的训练可以被分为多模态理解与多模态生成两个步骤。 多模态理解包含多模态编码器,输入投影与大模型主干三个部分,而多模态生成则包含输出投影与多模态生成器两个部分,通常而言,在训练过程中,多模态的编码器、生成器与大模型的参数一般都固定不变,不用于训练,主要优化的重点将落在输入投影与输出投影之中 这是因为人脸框架通常包含较少的噪声,并且更容易与来自其他模态的特征对齐。然后,我们使用单模态模型评估这些特征的性能,并选择表现最好的特征。对于音频,我们对音频和音频内的单独扬声器采用去噪技术。
利用生成式AI进行多模态信息检索过去十年间,机器学习主要依赖嵌入概念:模型学习将输入数据转换为向量,使得向量空间中的几何关系具有语义含义。例如,嵌入表示相近的词语可能具有相似含义。 这也适用于多模态信息检索,因为文本和图像可以嵌入同一空间。 我们的模型名为GENIUS(通用多模态搜索生成框架),是一个多模态模型,其输入和输出可以是图像、文本或图文对的任意组合。 然而,现有的生成方法通常是任务特定的,在性能上不及基于嵌入的方法,并且难以处理多模态数据。 因此,它代表了生成式多模态检索的重要进展。
不过要说多模态技术真正实现了落地似乎还太早,从多模态数据标注到跨模态转化,该领域都面临着众多挑战。这就需要研究社区和业界持续探索新的发展方向和技术范式。 作为国内独特的以图文和短视频内容为主的社区,小红书社区每天产生海量的UGC(用户原创内容)多模态数据,这为其在产品开发和落地中采用多模态技术提供了丰富的「土壤」。 》 小红书多模算法组负责人汤神,《多模态技术在图文与视频内容分发的内容与挑战》 为此,机器之心简单整理了各位学者、算法工程师在REDtech中的演讲,并期待能向读者介绍什么是多模态学习,多模态学习难在哪里 内容理解:跨越语言与视觉的艺术 现在的多媒体内容,俨然需要多模态学习更精准地描述,有鉴于此,小红书技术团队邀请了多模态学习领域的研究者,共同探讨多模态学习到底在做什么,都是怎么做的。 小红书多模算法组负责人汤神总结了如下多模态技术框架,在业务层面划分为内容质量评价体系、多模态搜索和交易(电商)内容理解,它们是多模态技术在内容分发场景当中最核心的三个技术栈。
二、多模态 Agent 的整体架构 一个完整的多模态 Agent 系统通常包含以下层次,其数据流如下: 用户多模态输入 → 多模态感知层 → 意图理解与规划层 → Agent 协作层 → 工具/环境交互层 7.3 音频生成与合成 结合文本转语音 (TTS) 技术,Agent 可以将生成的文本内容合成为自然流畅的语音,用于智能客服、有声读物等场景。 8.4 关键技术点 图片理解:使用 CLIP 或类似模型判断图片中是否存在破损、色差等问题。 工具调用:将质检结果、订单信息等作为参数,调用售后系统 API。 十、发展趋势与挑战 10.1 技术趋势 原生多模态大模型:模型自身具备强大的多模态理解和生成能力,减少对外部工具的依赖。 10.3 未来展望 多模态 Agent 正从“实验室 demo”走向“生产级应用”。随着技术的不断进步,它们将在更多行业中扮演“数字员工”的角色,深刻改变人机协作的方式。