搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

【多模态大模型】
多模态大模型的核心能力多模态大模型通过融合视觉、听觉、文本等多维度数据实现综合理解与生成。典型应用包括：图像到文本：识别图片内容并生成描述、广告文案或诗歌。跨模态检索：根据文本搜索相关图像/视频，或反之。代表模型如GPT-4V（视觉增强版）、通义千问多模态版、文心一言（ERNIE-ViLG）均支持此类任务。多模态对齐：模型将图像特征与文本语义空间对齐，生成候选描述。输出优化：通过强化学习调整生成文本的流畅性与吸引力。模型训练与优化要点数据准备：需对齐的多模态数据集（如COCO-Captions、AudioSet）。 API化：通过FastAPI封装模型，提供RESTful接口供业务系统调用。多模态大模型的应用需结合具体场景调整输入预处理与后处理逻辑，以达到最佳效果。
50210编辑于 2026-01-20
来自专栏算法之名
多模态大模型篇
因为有一大段的词向量，如果我们只是把它们的每个词向量简单的丢入到神经网络中，可能我们什么都得不到。因为对于一个句子来说，我们可能更多关心的是每个词之间的位置关系以及词与词之间的语义关系。因为大模型的参数量很大，要进行稳定的训练是比较困难的。实验结果由上图我们可以看到，模型的损失和Tokens之间的关系为当Tokens的数量不断增大的时候，模型的损失在不断的降低。该实验体现了在训练大模型时，数据量的重要性。贡献和创新 GLM-130B是目前较大的开源双语预训练模型，而GLM-6B也是可以在单个服务器上单张GPU上支持推理的大模型。 2023.3.14，千亿对话模型ChatGLM开始内测，60亿参数ChatGLM-6B模型开源。应用同时开源ChatGLM-6B模型，ChatGLM-6B是一个具有62亿参数的中英双语言模型。
1.6K51编辑于 2023-10-16
来自专栏存内计算加速大模型
腾讯发表多模态综述，什么是多模态大模型
多模态大语言模型（MLLM）是近年来兴起的一个新的研究热点，它利用强大的大语言模型作为大脑来执行多模态任务。在本文中，追踪多模态大模型最新热点，讨论多模态关键技术以及现有在情绪识别上的应用。，并且提供了现有主流的 26 个多模态大模型的简介，总结了提升多模态大模型性能的关键方法，多模态大模型脱胎于大模型的发展，传统的多模态模型面临着巨大的计算开销，而 LLMs 在大量训练后掌握了关于世界的 “先验知识”，因而一种自然的想法就是使用 LLMs 作为多模态大模型的先验知识与认知推动力，来加强多模态模型的性能并且降低其计算开销，从而多模态大模型这一“新领域”应运而生。多模态大模型的整体架构可以被归类为如下图的五个部分，整个多模态大模型的训练可以被分为多模态理解与多模态生成两个步骤。
6K13编辑于 2024-05-14
【论文解读】多模态大模型综述
一、简要介绍多模态大语言模型（MLLM）是近年来一个新兴的研究热点，它利用强大的大语言模型（LLM）作为大脑进行多模态研究。相比之下，传统的多模态模型仍然局限于前两个调优范式，缺乏zero-shot能力。因此，最近的许多工作都探索了将LLM中的指令调优的成功扩展到多模态。为了从单模态扩展到多模态，对数据和模型都需要进行相应的自适应。对于这些数据，研究人员通常通过调整现有的基准数据集或通过自指令来获取M-IT数据集。 LaVIN设计了一种混合模态适配器来动态决定多模态嵌入的权重。专家模型除了可学习的接口外，使用专家模型，如图像字幕模型，也是一种可行的弥补模态差距的方法。不同的是，专家模型背后的想法是不经过训练就将多模态输入转换成语言。这样，LLM就可以通过转换后的语言间接地理解多模态性。
7.9K20编辑于 2024-03-12
多模态大模型训练营
多模态大模型训练营：将AI技术融入日常生活的思考在参加"多模态大模型训练营"的过程中，我逐渐意识到，作为程序员学习的不仅是技术本身，更是一种全新的思维方式。从技术理解到生活应用多模态大模型的核心在于整合不同类型的信息——文本、图像、声音等，这与我们日常生活中处理信息的方式不谋而合。训练营教会我的不是单纯的编程技巧，而是如何让技术服务于人的真实需求。现在，我学会了像多模态模型那样，先对信息进行分类和优先级排序：重要且紧急的事项如同需要立即处理的输入信号，而长期目标则像模型的训练过程，需要持续投入和调整。我开始将任务视为不同的"模态"，找到它们之间的关联，制定出更高效的处理策略。沟通能力的潜移默化提升多模态模型擅长理解上下文和语义nuance，这启发我改善了自己的沟通方式。多模态大模型训练营给我的不仅是技术知识，更是一套应对复杂现代生活的思维工具。它让我明白，最好的技术是那些能够无缝融入生活、提升生活质量而不过度引人注目的工具。
23010编辑于 2025-11-22
来自专栏程序随笔
聊聊多模态大模型处理的思考
多模态：文本、音频、视频、图像等多形态的展现形式。目前部门内业务要求领域大模型需要是多模态——支持音频/文本。从个人思考的角度来审视下，审视下多模态大模型的实现方式。首先就要区分输入与输出，即输入的模态与输出的模态。从目前来看，模型的输出大多都是文本，模型的输入一般是图片/文本；但少数的大模型比如QWen、讯飞星火等支持语音的输入。多模态基座模型即原生基座模型，比如GLM、LlaMa2、QWen、文心一言等基座模型支持多模态的输入输出，从个人调研来看，GLM、文心一言对这方面的支持比较弱，仅支持文本/图像；LlaMa2有开源的实现支持文本魔塔社区/HuggingFace上，已经开源了很多高质量的多模态模型，截个图展示下：文本化处理使用开源/商务组件处理输入的内容，将其文本化，再输入到模型中；然后再经历输入部分的流程。总结最终来看，第一个方案肯定是最合适的；但如果对于选型的大模型不支持多模态的情况下，考虑开源实现或是第二张方案，但要综合调研其带来的影响，并不是简单的转文本就行。
86110编辑于 2024-03-27
来自专栏机器学习与生成对抗网络
综述论文 | 多模态视觉大模型
本文系统回顾了多模态LLMs中最新的视觉语言指令调优设置和数据集，并总结了高质量视觉语言调优数据应具备的特征。 Comprehensive Survey on Multimodal Large Language Model https://arxiv.org/pdf/2311.07594.pdf 本综述论文探讨了多模态大型语言模型（MLLMs），它将GPT-4等大型语言模型与文本和视觉等多模态数据进行整合。本研究将MLLMs中现有的模态对齐方法分为四组进行调查：（1）多模态转换器，将数据转换为LLMs可以理解的形式；（2）多模态感知器，改进LLMs感知不同类型数据的能力；（3）工具辅助，将数据转换为一种常见格式这个领域仍处于探索和实验阶段，组织和更新各种现有的多模态信息对齐研究方法。
83210编辑于 2023-11-17
来自专栏算法进阶
多模态大语言模型研究进展！
1 介绍多模态大型语言模型（MM-LLMs）在过去一年取得了显著进步，通过优化模态对齐和与人类意图对齐，增强了现成的单模态基础模型（LLMs）以支持各种MM任务。图2 MM-LLMs的一般模型架构以及每个组件的实现选择。 2.1 模态编码器模态编码器（ME）将来自不同模态的输入IX编码为相应的特征FX。 Q-Former从FX中提取特征作为提示PX，P-Former生成“参考提示”进行对齐约束，MQ-Former进行多尺度信号对齐。但这些方法都需要额外的PT过程初始化。当前作品多采用隐扩散模型（LDMs），如图像合成使用稳定扩散，视频合成使用零目镜，音频合成使用AudioLDM-2。输出投影器将特征HX作为条件输入，用于MM内容生成过程中的噪声消除。 PaLM-E和EmbodiedGPT是该领域的典型工作，前者通过训练MM-LLM引入多身体代理，处理通用VL任务，后者提出经济高效的CoT方法，增强实体代理与现实世界的互动能力。
94010编辑于 2024-07-22
来自专栏腾讯技术工程官方号的专栏
浅析多模态大模型的前世今生
大模型的多模态能力到底是怎么来的？今天来分享一下多模态相关的一些工作和个人的理解。 MiniGPT-4：LLM 助力多模态对于 GPT4 能够具有超强的图文理解能力，作者们的理解是这是得益于大语言模型的能力，因此考虑将最新的一些能跟 ChatGPT “媲美”的语言模型引入其中，这里采用了此时的感受就是：大语言模型牛 X、高质量数据牛 X，一些基于开源 LLM 进行修改的多模态大模型也开始百花齐放。个人总结看了这些多模态的研究后，多模态的研究做的事情主要是：不同模态进行对齐；不同模态进行融合；指令微调促进人机交互，数据的质量可能比数量更重要；模型设计既要保证检索任务下的高效推理，又要能够进行多模态深度融合；进入大语言模型时代前，用更大的图像编码器一般是更有效的；进入大语言模型时代后，图文理解能力的强大可能来自于大语言模型的能力；进入大语言模型时代后，视觉优先仍然是值得探索的方向，但是训练大视觉模型向来是比较困难的
5.4K84编辑于 2023-11-01
来自专栏算法一只狗
LLama4 原生多模态大模型
Meta最新发布了原生多模态大模型 Llama 4，一经亮相即登上LMSYS大模型排行榜第二名，仅次于Google的Gemini-2.5-pro，分差仅为22分，实力可见一斑。三个模型共同的技术特色： MoE混合专家架构：仅激活部分参数，大幅提升计算效率。多模态能力：整合文本、图像与视频数据，实现跨模态任务处理。技术细节与训练策略Llama 4采用了先进的早期融合（early fusion）机制，将文本和视觉token统一集成至模型主干架构，实现了真正的多模态统一训练。总结与展望Llama 4的发布，意味着Meta正式进入原生多模态大模型竞争核心领域。相比Gemini系列、GPT-4o、Claude 3、DeepSeek等主流模型，Llama 4以务实高效的技术路线，突出计算成本、推理效率与多模态能力的平衡。
89800编辑于 2025-05-01
多模态大模型训练营(完结)
多模态大模型常见问题全解析一、基础概念问题1. 什么是多模态大模型？多模态大模型是指能够同时处理和生成多种数据类型（如文本、图像、音频、视频等）的AI模型。与单模态模型的区别特性多模态模型单模态模型输入类型多种数据类型混合单一数据类型参数规模通常更大(十亿级以上)相对较小训练数据跨模态对齐数据集单一模态数据集应用场景跨模态理解与生成特定领域任务二、技术实现问题多模态对齐如何实现？如何评估多模态模型？值得关注的新方向神经符号系统：结合符号推理与神经网络世界模型：构建统一物理场景理解具身智能：多模态+机器人控制多模态法学：跨模态因果推理五、资源工具问题9.
21310编辑于 2026-04-27
来自专栏自然语言处理(NLP)论文速递
剑桥 | 发布多模态检索器，赋能多模态大模型RAG应用
PreFLMR模型是一个通用的预训练多模态知识检索器，可用于搭建多模态RAG应用。 preflmr.github.io/ 论文标题：PreFLMR: Scaling Up Fine-Grained Late-Interaction Multi-modal Retrievers 背景尽管多模态大模型针对这个问题，检索增强生成（RAG，Retrieval-Augmented Generation）提供了一个简单有效的让多模态大模型成为” 领域专家” 的方案：首先，一个轻量的知识检索器（Knowledge 多模态知识提取器的知识 “召回能力” 直接决定了大模型在回答推理时能否获得准确的专业知识。 3.PreFLMR 能够根据用户输入的指令（例如 “提取能用于回答以下问题的文档” 或 “提取与图中物品相关的文档”），从庞大的知识库中提取相关的文档，帮助多模态大模型大幅提升在专业知识问答任务上的表现
61510编辑于 2024-03-26
来自专栏深度学习自然语言处理
APE｜全开源多模态基础感知大模型
一次性检测&分割任意多类别或短语！一个模型一套参数在160种测试集上取得当前SOTA或极具竞争性的结果！这种粒度差异会给模型训练带来挑战，为此我们提出统一前景和背景的粒度，对于不同块的背景我们将其视为独立的标签，如上图中的“天空”。这使得模型可以采用统一的架构训练前景和背景数据，也可以方便地融入SA-1B这类大规模的Class-Agnostic数据。论文一共训练了四组大模型： APE (A)：基础版，基于DETA构建，并只在通常的检测和分割数据集上训练，包括COCO, LVIS, Objects365, OpenImages, and Visual 因为在inter-scenario设定下，每张图都要用422个句子去查询，之前模型总是会每句话预测一个物体，因此效果不理想，而APE会拒绝不相关的查询。
57810编辑于 2023-12-21
来自专栏啄木鸟软件测试
多模态大模型技术原理与实战(2)
oSoftMax函数：将多酚类输出值转转换为[0,1]之间的概率分布，且概率和为1. 1.第一个阶段:SFT，即有监督微调 ChatGPT 使用 GPT-3.5-turbo 作为其有监督微调的底座模型。这批数据的总量不大，但是其种类丰富，包含了基于各个任务的多轮对话数据。 ·可以起到加速模型收敛的作用。 GPT-3 文本生成、多轮对话、机器翻译方面、智能问答具有优势。 GPT-3缺陷： ·无法保证生成的文章是否符合人类的价值观、是否有政治敏感和种族歧视的信息 ·其长距离上下文理解能力不够强 ·多轮对话能力有待提高。总结大模型被广泛应用有以下几个前提 ·效果好 ·效率高 ·成本可控目前，大模型在这几个方面还不够理想。
59710编辑于 2024-09-10
来自专栏算法一只狗
Step系列大模型—两款多模态大模型详细介绍
目前，它无法进行多模态任务的识别，因为其本质上仍是一个文本大模型（LLM），核心优势集中在文本生成、逻辑推理和长上下文建模，而非跨模态融合。如果用户希望体验 DeepSeek 级别的模型，同时拥有多模态能力，可以尝试阶跃最新发布的 Step-Video 和 Step-Audio。，中英文可实现同声传译自然流畅的通话体验：低时延、个性化表达，使语音交互更自然3.2 技术架构核心难点：提升语音的自然度和流畅度依赖高质量大规模语音数据进行训练多模态训练架构：采用端到端多模态模型 Generation)：结合已有音频生成目标说话人数据音频编辑 (Audio Editing)：调整音频情感、风格，提高自然度3.4 结论从整体架构来看，Step-Audio 采用了 130B 规模的多模态大模型 4.写在最后随着 DeepSeek-R1 在文本推理方面的突破，Step-Video 和 Step-Audio 进一步扩展了多模态大模型的能力，使视频生成和语音交互进入了一个全新的阶段。
1K20编辑于 2025-03-22
来自专栏深度学习自然语言处理
APE｜全开源多模态基础感知大模型
一次性检测&分割任意多类别或短语！一个模型一套参数在160种测试集上取得当前SOTA或极具竞争性的结果！这种粒度差异会给模型训练带来挑战，为此我们提出统一前景和背景的粒度，对于不同块的背景我们将其视为独立的标签，如上图中的“天空”。这使得模型可以采用统一的架构训练前景和背景数据，也可以方便地融入SA-1B这类大规模的Class-Agnostic数据。论文一共训练了四组大模型： APE (A)：基础版，基于DETA构建，并只在通常的检测和分割数据集上训练，包括COCO, LVIS, Objects365, OpenImages, and Visual 因为在inter-scenario设定下，每张图都要用422个句子去查询，之前模型总是会每句话预测一个物体，因此效果不理想，而APE会拒绝不相关的查询。
57110编辑于 2023-12-21
来自专栏啄木鸟软件测试
多模态大模型技术原理与实战(3)
在阿里巴巴达摩院发布的《2023 土大科技趋势》中，实现文本-图像-语音-视频“大统一”的多模态预训练大模型占据榜首。 ·CLIP模型：CLIP模型是OpenAI在2021 年推出的文本-图像多模态预训练大模型。证明了“多模态预训练大模型零样本推理”这种模式的可行性。 2，基于多模态对齐数据训练多模态大模型 VideoBERT、CLIP、CoCa、CoDi。 2023年4月，威斯康星大学麦迪逊分校等机构联合发布了多模态大模型LLaVA。LLaVA模型在视觉问答、图像描述、物体识别、多轮对话等任务中表现得极其出色。第二个阶段，基于15 万条多模态指令数据，对多模态大模型进行端到端的指令微调，具体针对视觉问答和多模态推理任务进行模型训练。
1.2K20编辑于 2024-09-10
来自专栏啄木鸟软件测试
多模态大模型技术原理及实战(6)
中小型公司大模型构建之路如何选择自己建立二次开发重新训练，消耗非常巨大现有的大模型体系已经非常丰富对话大模型已经白热化 •三天产生一个小应用 •两天产生一个新模型中小公司的技术实力相对薄微调用 LoRA((Low-Rank Adaptation低秩适配) 2022年 Edward J.Hu PLM(Pre-trained Language Model 预训练语言模型) Redundancy Optimizer，ZeRO） •优化器状态分区(ZeRO-1） •梯度分区 (ZeRO-2） •参数分区(ZeRO-3) 压缩剪枝剪枝技术通过理结果产生重要影响，需要剔除冗余参数以提高模型训练效率步骤 •1、训练一个原始模型，该模型具有较高的性能但运行速度较慢。 •2、确定哪些参数对输出结果的贡献较小，并将其设置为零。 •4、评估模型的大小、速度和效果等指标，如果不符合要求，那么继续进行剪枝操作直至满意为止。
33910编辑于 2024-09-10
工业视觉检测：多模态大模型的诱惑
现在的问题是：多模态大模型出来之后，YOLO还是最优解吗？三、多模态大模型的诱惑：看起来很美2023年，多模态大模型集中爆发。答案是清楚的：在当前的技术成熟度下，多模态大模型不适合作为工业视觉检测的主力方案。六、不是替代，是互补但这不意味着多模态大模型在工业视觉检测领域毫无用处。关键是找到它的正确位置。多模态大模型可以做什么？兜底。当YOLO的置信度处于"灰色地带"（比如0.3-0.7之间），不是很确定的时候，把这张图送给大模型做二次判断。多模态大模型可以做什么？把结构化的检测结果，转化成自然语言的质检报告。
85121编辑于 2026-01-12
多模态大模型前沿算法与实战应用
多模态大模型：前沿算法原理与全流程实战应用随着人工智能从单一感知向通用认知的维度跃迁，多模态大模型正以前所未有的速度重塑着数字世界的图景。然而，多模态大模型的兴起，彻底粉碎了这一学科壁垒。教育变革的重心正向“全模态”融合转移。未来的教育不再局限于单一信号的处理技巧，而是侧重于培养理解跨模态对齐、融合编码与联合训练的复合型人才。单模态模型如同蒙眼听音，难以构建对真实世界的完整认知；而多模态大模型则让机器拥有了“眼睛”与“耳朵”，实现了感知智能向认知智能的质变。在科技维度上，前沿算法原理的突破解决了异构数据难以对齐的难题。多模态大模型的普及，在人文层面具有里程碑式的意义。它打破了以文本为核心的单一交互模式，极大地降低了技术使用的门槛。结语多模态大模型的崛起，是人工智能发展史上的高光时刻。它根植于教育体系的跨界融合，成长于科技架构的底层突破，升华于以人为本的交互体验，最终落实于经济价值的爆发式增长。
47510编辑于 2026-03-23

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

【多模态大模型】

多模态大模型篇

腾讯发表多模态综述，什么是多模态大模型

【论文解读】多模态大模型综述

多模态大模型训练营

聊聊多模态大模型处理的思考

综述论文 | 多模态视觉大模型

多模态大语言模型研究进展！

浅析多模态大模型的前世今生

LLama4 原生多模态大模型

多模态大模型训练营(完结)

剑桥 | 发布多模态检索器，赋能多模态大模型RAG应用

APE｜全开源多模态基础感知大模型

多模态大模型技术原理与实战(2)

Step系列大模型—两款多模态大模型详细介绍

APE｜全开源多模态基础感知大模型

多模态大模型技术原理与实战(3)

多模态大模型技术原理及实战(6)

工业视觉检测：多模态大模型的诱惑

多模态大模型前沿算法与实战应用

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

【多模态大模型】

多模态大模型篇

腾讯发表多模态综述，什么是多模态大模型

【论文解读】多模态大模型综述

多模态大模型训练营

聊聊多模态大模型处理的思考

综述论文 | 多模态视觉大模型

多模态大语言模型研究进展！

​浅析多模态大模型的前世今生

LLama4 原生多模态大模型

多模态大模型训练营(完结)

剑桥 | 发布多模态检索器，赋能多模态大模型RAG应用

APE｜全开源多模态基础感知大模型

多模态大模型技术原理与实战(2)

Step系列大模型—两款多模态大模型详细介绍

APE｜全开源多模态基础感知大模型

多模态大模型技术原理与实战(3)

多模态大模型技术原理及实战(6)

工业视觉检测：多模态大模型的诱惑

多模态大模型 前沿算法与实战应用

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

浅析多模态大模型的前世今生

多模态大模型前沿算法与实战应用