搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

【多模态大模型】
多模态大模型的核心能力多模态大模型通过融合视觉、听觉、文本等多维度数据实现综合理解与生成。典型应用包括：图像到文本：识别图片内容并生成描述、广告文案或诗歌。跨模态检索：根据文本搜索相关图像/视频，或反之。代表模型如GPT-4V（视觉增强版）、通义千问多模态版、文心一言（ERNIE-ViLG）均支持此类任务。多模态对齐：模型将图像特征与文本语义空间对齐，生成候选描述。输出优化：通过强化学习调整生成文本的流畅性与吸引力。模型训练与优化要点数据准备：需对齐的多模态数据集（如COCO-Captions、AudioSet）。 API化：通过FastAPI封装模型，提供RESTful接口供业务系统调用。多模态大模型的应用需结合具体场景调整输入预处理与后处理逻辑，以达到最佳效果。
30610编辑于 2026-01-20
来自专栏啄木鸟软件测试
多模态大模型技术原理与实战(2)
oSoftMax函数：将多酚类输出值转转换为[0,1]之间的概率分布，且概率和为1. (2)只包含解码器的预训练语言模型，比如 ChatGPT。 (3)编码器和解码器都包括预训练语言模型，比如 BART。 1.第一个阶段:SFT，即有监督微调 ChatGPT 使用 GPT-3.5-turbo 作为其有监督微调的底座模型。这批数据的总量不大，但是其种类丰富，包含了基于各个任务的多轮对话数据。这句话可以按以下思维逻辑分解:如果去掉余的两个苹果，剩下的苹果应该等分为2份，那么老大最后的苹果数量(26-2)/2=12个，老二分得的苹果比老大的多两个，则老二的苹果数量12+2=14个。 ·可以起到加速模型收敛的作用。 GPT-3 文本生成、多轮对话、机器翻译方面、智能问答具有优势。
54410编辑于 2024-09-10
来自专栏存内计算加速大模型
腾讯发表多模态综述，什么是多模态大模型
多模态大语言模型（MLLM）是近年来兴起的一个新的研究热点，它利用强大的大语言模型作为大脑来执行多模态任务。，并且提供了现有主流的 26 个多模态大模型的简介，总结了提升多模态大模型性能的关键方法，多模态大模型脱胎于大模型的发展，传统的多模态模型面临着巨大的计算开销，而 LLMs 在大量训练后掌握了关于世界的多模态大模型的整体架构可以被归类为如下图的五个部分，整个多模态大模型的训练可以被分为多模态理解与多模态生成两个步骤。多模态融合多模态循环翻译网络(MCTN)是一种通过模态翻译学习鲁棒联合表示的神经网络模型。如图2所示，MCTN提供了两种模式的全面概述。北大等提出CBNet https://zhuanlan.zhihu.com/p/83004945(2) 多模态预训练模型综述 https://zhuanlan.zhihu.com/p/613290595
5.7K13编辑于 2024-05-14
来自专栏算法之名
多模态大模型篇
\)；同样,k和v也做同样的操作，分别得到\(k^{i,1}、k^{i,2}\)以及\(v^{i,1}、v^{i,2}\)，剩下的步骤就跟之前是一样的，只不过是1跟1的玩，2跟2的玩。具体一点说，当我们去计算\(b^2\)的时候，我们只会用\(q^2\)去分别乘以\(k^1\)和\(k^2\)得到\(α_{2,1}'\)和\(α_{2,2}'\)，而不必理会后面的\(k^3、k^4\ 再用\(α_{2,1}'、α_{2,2}'\)分别乘以\(v^1、v^2\)，结果再相加就得到了\(b^2\)。而BERT的预训练模型是支持中文的，我们只需要做好数据集(带标注)，并且使用BERT的预训练模型参数进行微调(find-tune)就可以了。 2、输入一个句子，对句子中的每一个词都做一个分类。模型推理我们这里使用的是LLaMA 7B的模型去进行推理，在batch-size=2的时候，16G的显卡就够了，当然我这里使用的是24G的3090显卡。
1.5K51编辑于 2023-10-16
来自专栏CSDN社区搬运
Robust多模态模型的开发
Robust 多模态模型：寻找遗失的模态！近年来，随着网络视频的大量涌现，各种多模态任务日益备受关注。尽管取得了显著的进展，但在迈向稳健多模态交互的道路上仍面临两大挑战： 1）在未对齐多模态数据中建模跨模态交互时效率低下; 2）在现实环境中通常会发生的随机模态特征缺失的脆弱性。然而，这两种方法都无法科普非对齐序列中随机模态特征的缺失。本文提出了一种 Robust 的多模态模型来提高模型对非对齐模态序列随机缺失的鲁棒性。同时，我在流行的多模态任务–多模态情感计算的数据集上对模型进行了测试，得到了不错的效果，证明了该模型的可靠性。在这种情况下，需要一种能够处理随机模态特征缺失（RMFM）的模型。因此，在多模态任务中构建能够处理RMFM的模型仍然是一个开放的研究。
42110编辑于 2024-11-15
来自专栏CreateAMind
多模态大型语言模型综述
-4V 为代表的多模态大语言模型（Multimodal Large Language Model, MLLM）已成为一个新兴的研究热点，它利用强大的大语言模型（LLMs）作为“大脑”来执行多模态任务。随后，我们讨论了多模态幻觉问题及相关扩展技术，包括多模态上下文学习（Multimodal ICL, M-ICL）、多模态思维链（Multimodal CoT, M-CoT）和大语言模型辅助的视觉推理（LLM-Aided (2) 如何缓解多模态幻觉问题（§6）？ 2 架构一个典型的 MLLM 可以抽象为三个模块，即：一个预训练的模态编码器、一个预训练的大语言模型（LLM），以及一个连接两者的模态接口。与传统多模态模型的评估方法相比，MLLM 的评估呈现出若干新特点：(1) 由于 MLLM 通常具有通用性，因此对其进行全面评估至关重要；(2) MLLM 展现出许多涌现能力（如无需 OCR 的数学推理）
73410编辑于 2026-03-11
来自专栏ytkah
GPT-4多模态模型
GPT-4 模型是OpenAI开发的第四代大型语言模型（LLM），它将是一个多模态模型，会提供完全不同的可能性-例如文字转图像、音乐甚至视频。在GPT-4之前是GPT-3.5，由该模型开发的聊天机器人 ChatGPT 一经面世，便引爆 AI 界的军备竞赛多模态或成GPT-4最大亮点　　微软 AI 技术专家 Holger Kenn 和 Clemens Sieber 对多模态 AI 的相关功能进行了介绍。　　 Sieber 则介绍了一些多模态 AI 产业化的潜在案例，例如多模态 AI 能够将电话呼叫的语音直接记录成文本。根据估算，该功能能为微软位于荷兰的一家大客户节省 500 个工作小时/天。　　 GPT-4 GPT-4 模型是第四代大型语言模型（LLM），它将是一个多模态模型，会提供完全不同的可能性-例如文字转图像、音乐甚至视频。
1.7K31编辑于 2023-03-13
来自专栏云社区活动
训练多模态模型的最佳实践
训练多模态模型的最佳实践【引言】大家好，我是Echo_Wish，今天咱们来聊聊多模态模型的训练最佳实践。啥是多模态？简单说，就是让模型像人一样，能听、能看、还能读。如今，多模态模型在自动驾驶、医疗影像、智能问答等领域大放异彩，但训练它们可不是件容易的事。今天我就带大家从数据准备、模型选择、训练优化到评估调优，系统地搞清楚如何高效训练多模态模型，并且会附上代码示例，确保大家能落地实践。1. 模型选择：一键复用还是自研？多模态模型可以分为两类：预训练模型（CLIP、BLIP、BEiT-3）：适用于迁移学习，省时省力。虽然训练过程充满挑战，但只要掌握数据处理、模型选择、训练优化和评估方法，就能高效训练出强大的多模态模型。
86210编辑于 2025-03-28
来自专栏自然语言处理(NLP)论文速递
剑桥 | 发布多模态检索器，赋能多模态大模型RAG应用
PreFLMR模型是一个通用的预训练多模态知识检索器，可用于搭建多模态RAG应用。多模态知识提取器的知识 “召回能力” 直接决定了大模型在回答推理时能否获得准确的专业知识。图 2：PreFLMR 模型同时在多项任务上取得极佳的多模态检索表现，是一个极强的预训练基底模型。 2. 下文将简略介绍 M2KR 数据集，PreFLMR 模型和实验结果分析。 M2KR 数据集为了大规模预训练和评估通用多模态检索模型，作者汇编了十个公开的数据集并将其转换为统一的问题 - 文档检索格式。结论剑桥人工智能实验室提出的 PreFLMR 模型是第一个开源的通用后期交互多模态检索模型。经过在 M2KR 上的百万级数据预训练，PreFLMR 在多项检索子任务中展现出强劲的表现。
55810编辑于 2024-03-26
来自专栏人工智能
多模态AI与视觉语言模型
多模态AI正是这一方向的核心技术，CLIP、DALL-E、GPT-4V等模型的出现标志着我们进入了多模态智能的新时代。其成功催生了后续众多工作： Stable Diffusion：使用CLIP进行图像-文本对齐 LLaVA：结合CLIP视觉编码器和语言模型 Flamingo：多模态上下文学习多模态架构设计早期融合挑战与未来方向模态对齐：如何更精确地对齐不同模态的语义长尾分布：处理罕见的多模态组合计算效率：大规模多模态模型的推理加速可解释性：理解多模态模型的决策过程世界知识：将多模态学习与世界知识结合通过CLIP等模型的实践，我们看到跨模态理解不仅可行，而且效果惊人。从零样本分类到图像生成，从视觉问答到多模态对话，多模态技术正在不断拓展AI的能力边界。未来，随着模型规模的扩大和训练数据的积累，多模态AI将在更多领域发挥作用，为人机交互带来革命性变化。掌握多模态学习的技术，将帮助读者在AI浪潮中把握机遇，创造更智能的应用。
42610编辑于 2026-01-21
【论文解读】多模态大模型综述
一、简要介绍多模态大语言模型（MLLM）是近年来一个新兴的研究热点，它利用强大的大语言模型（LLM）作为大脑进行多模态研究。相比之下，传统的多模态模型仍然局限于前两个调优范式，缺乏zero-shot能力。因此，最近的许多工作都探索了将LLM中的指令调优的成功扩展到多模态。 LaVIN设计了一种混合模态适配器来动态决定多模态嵌入的权重。专家模型除了可学习的接口外，使用专家模型，如图像字幕模型，也是一种可行的弥补模态差距的方法。不同的是，专家模型背后的想法是不经过训练就将多模态输入转换成语言。这样，LLM就可以通过转换后的语言间接地理解多模态性。事实上，模型通常对演示的安排很敏感。在多模态中的应用方面，M-ICL主要用于两种场景： (1)解决各种视觉推理任务，(2)教LLM使用外部工具。
7.7K20编辑于 2024-03-12
来自专栏云云众生s
通用多模态AI模型的兴起
通用的多模态模型 (GMM) 能够轻松地跨不同模态学习，并在不同类型的任务中表现良好。正是由于多模态AI潜在的下游影响，现在人们更加关注构建真正“通用”的多模态AI模型。这种通用多模态模型 (GMMs) 能够轻松地跨不同模态学习，并在面对不同类型任务时适应并表现良好。当前通用多模态AI模型的示例包括： NExT-GPT OneLLM Meta-Transformer OFA+ Unified-IO 基础模型铺平道路当前通向通用多模态模型的轨迹源于预训练的深度学习基础模型例如，基于文本的数据可以由任何大型语言模型处理，而图像可以由像CLIP这样的模型编码，或者各种模态可以由像ImageBind这样的多模态模型编码。其他障碍包括缺乏足够复杂的基准来评估通用多模态模型（GMMs），而通常的基准主要针对文本和图像。另一个障碍是当前的多模态学习严重偏向于跨模态学习，这往往偏向于图像和文本而不是其他模态。
36110编辑于 2025-01-08
多模态大模型训练营
多模态大模型训练营：将AI技术融入日常生活的思考在参加"多模态大模型训练营"的过程中，我逐渐意识到，作为程序员学习的不仅是技术本身，更是一种全新的思维方式。现在，我学会了像多模态模型那样，先对信息进行分类和优先级排序：重要且紧急的事项如同需要立即处理的输入信号，而长期目标则像模型的训练过程，需要持续投入和调整。我开始将任务视为不同的"模态"，找到它们之间的关联，制定出更高效的处理策略。沟通能力的潜移默化提升多模态模型擅长理解上下文和语义nuance，这启发我改善了自己的沟通方式。多模态模型的"融合"理念让我学会从多个角度分析问题，结合不同的资源和思路，创造出更创新的解决方法。无论是规划旅行路线还是解决家庭事务，这种跨领域思考都带来了意想不到的好结果。多模态大模型训练营给我的不仅是技术知识，更是一套应对复杂现代生活的思维工具。它让我明白，最好的技术是那些能够无缝融入生活、提升生活质量而不过度引人注目的工具。
18310编辑于 2025-11-22
来自专栏科学最Top
ChatTime：多模态时间序列基础模型
2412.11376 代码链接：https://github.com/ForestsKing/ChatTime 本文针对传统时间序列预测方法的局限，创新地将时间序列建模为外语（foreign language），构建多模态时间序列基础模型 ChatTime，支持零样本预测和双模态输入输出，通过实验验证其在多种任务和场景下性能优越，还创建了多模态数据集，为时间序列分析提供了新视角与解决方案。人类专家经常整合多模态信息进行时间序列预测。例如，经济学家将历史金融数据序列与政策报告相结合，以预测未来市场趋势。这就引出了一个问题：是否有可能构建一个多模态时间序列基础模型，既允许零样本推理，又支持时间序列和文本双模态输入和输出？这些任务分别考察基础模型在时间序列到时间序列、文本到时间序列以及时间序列到文本的模态转换能力。实验结果证实了ChatTime在多个任务和场景中的卓越性能，凸显了其作为多模态时间序列基础模型的潜力。
58311编辑于 2025-03-24
来自专栏圆圆的算法笔记
如何使用多类型数据预训练多模态模型？
想使用多种类型的数据，核心是在数据或模型结构上实现多任务的统一。本文梳理了这个方向4篇近期最典型的工作，包括2篇CVPR 2022的文章和2篇谷歌的文章。其中涉及的方法包括：多模态模型结构上的统一、多模态数据格式上的统一、单模态数据引入、多类型数据分布差异问题优化4种类型。 2 多模态数据格式上的统一论文题目：Unified Contrastive Learning in Image-Text-Label Space 下载地址：https://arxiv.org/pdf/ 因此，FLAVA提出，在训练多模态模型时，同时引入图像领域和NLP领域的单模态任务，提升单模态模型的效果，这有助于多模态模型后续的训练。下表对比了FLAVA和其他多模态模型在训练数据、预训练任务和可解决的模态上的差异。FLAVA使用了多种单模态数据，让模型能够同时处理单模态和多模态任务。
2.8K20编辑于 2022-09-22
来自专栏null的专栏
Facebook的多任务多模态向量召回模型Que2Search
，尤其现如今对多模态的研究，Que2Search[1]中就是提出使用多模态的方法来训练双塔模型，同时，在Que2Search的item塔中引入了分类的任务，与上面的双塔任务共同构成了多任务的训练方式。 2. Que2Search模型 2.1. Que2Search的模型结构 Que2Search的模型结构如下图所示：左侧是一个Query侧的塔，右侧是item侧的塔。 2.2. 为了能对item塔的模型更好的学习，因此在这里设置了多标签多类目的分类任务，如上图中的右侧。 2.4. 样本选择对于双塔模型来说，一般选择点击的样本作为正样本，但是在Que2Search中，选择的正样本需满足以下四个条件：用户发起一次搜索点击一个商品给卖家留言卖家回复只有同时满足这四个条件的query 总结在Que2Search中，主要是加入了更多的文本特征，并利用基于Transformer的方法提取文本语义信息，同时在特征中融入了图像的特征，实现了多模态的模型学习。
1.8K20编辑于 2023-04-01
来自专栏DeepHub IMBA
使用高斯混合模型拆分多模态分布
本文介绍如何使用高斯混合模型将一维多模态分布拆分为多个分布。生成具有多模态分布的数据当一个数据集显示出多个不同的峰值或模态时，通常会出现显示出多个不同的峰值或模态，每个模态代表分布中一个突出的数据点簇或集中。这些模式可以看作是数据值更可能出现的高密度区域。 sns sns.set_style('whitegrid') plt.hist(multimodal_dist, bins=50, alpha=0.5) plt.show() 使用高斯混合模型拆分多模态分布下面我们将通过使用高斯混合模型计算每个分布的均值和标准差，将多模态分布分离回三个原始分布。高斯混合模型是一种可用于数据聚类的概率无监督模型。它使用期望最大化算法估计密度区域。
66330编辑于 2023-09-28
来自专栏登神长阶
【论文复现】Robust多模态模型的开发
Robust 多模态模型：寻找遗失的模态！近年来，随着网络视频的大量涌现，各种多模态任务日益备受关注。尽管取得了显著的进展，但在迈向稳健多模态交互的道路上仍面临两大挑战： 1）在未对齐多模态数据中建模跨模态交互时效率低下; 2）在现实环境中通常会发生的随机模态特征缺失的脆弱性。然而，这两种方法都无法科普非对齐序列中随机模态特征的缺失。本文提出了一种 Robust 的多模态模型来提高模型对非对齐模态序列随机缺失的鲁棒性。同时，我在流行的多模态任务–多模态情感计算的数据集上对模型进行了测试，得到了不错的效果，证明了该模型的可靠性。模型结构和代码单模态特征提取模态特征提取模块首先用一维卷积层处理不完整的模态序列，以确保输入序列的每个元素都知道其相邻元素。公式的排版如下： 2.
52710编辑于 2024-11-28
来自专栏程序随笔
聊聊多模态大模型处理的思考
多模态：文本、音频、视频、图像等多形态的展现形式。目前部门内业务要求领域大模型需要是多模态——支持音频/文本。从个人思考的角度来审视下，审视下多模态大模型的实现方式。多模态基座模型即原生基座模型，比如GLM、LlaMa2、QWen、文心一言等基座模型支持多模态的输入输出，从个人调研来看，GLM、文心一言对这方面的支持比较弱，仅支持文本/图像；LlaMa2有开源的实现支持文本魔塔社区/HuggingFace上，已经开源了很多高质量的多模态模型，截个图展示下：文本化处理使用开源/商务组件处理输入的内容，将其文本化，再输入到模型中；然后再经历输入部分的流程。总结最终来看，第一个方案肯定是最合适的；但如果对于选型的大模型不支持多模态的情况下，考虑开源实现或是第二张方案，但要综合调研其带来的影响，并不是简单的转文本就行。第三种，目前我没有找到合适的Embedding模型支持多模态，后续继续探讨挖掘下。转载请注明出处：https://www.cnblogs.com/zhiyong-ITNote
79610编辑于 2024-03-27
来自专栏机器学习与生成对抗网络
综述论文 | 多模态视觉大模型
本文系统回顾了多模态LLMs中最新的视觉语言指令调优设置和数据集，并总结了高质量视觉语言调优数据应具备的特征。 Comprehensive Survey on Multimodal Large Language Model https://arxiv.org/pdf/2311.07594.pdf 本综述论文探讨了多模态大型语言模型（MLLMs），它将GPT-4等大型语言模型与文本和视觉等多模态数据进行整合。本研究将MLLMs中现有的模态对齐方法分为四组进行调查：（1）多模态转换器，将数据转换为LLMs可以理解的形式；（2）多模态感知器，改进LLMs感知不同类型数据的能力；（3）工具辅助，将数据转换为一种常见格式这个领域仍处于探索和实验阶段，组织和更新各种现有的多模态信息对齐研究方法。
80210编辑于 2023-11-17

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

【多模态大模型】

多模态大模型技术原理与实战(2)

腾讯发表多模态综述，什么是多模态大模型

多模态大模型篇

Robust多模态模型的开发

多模态大型语言模型综述

GPT-4多模态模型

训练多模态模型的最佳实践

剑桥 | 发布多模态检索器，赋能多模态大模型RAG应用

多模态AI与视觉语言模型

【论文解读】多模态大模型综述

通用多模态AI模型的兴起

多模态大模型训练营

ChatTime：多模态时间序列基础模型

如何使用多类型数据预训练多模态模型？

Facebook的多任务多模态向量召回模型Que2Search

使用高斯混合模型拆分多模态分布

【论文复现】Robust多模态模型的开发

聊聊多模态大模型处理的思考

综述论文 | 多模态视觉大模型

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐