搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏ytkah
GPT-4多模态模型
GPT-4 模型是OpenAI开发的第四代大型语言模型（LLM），它将是一个多模态模型，会提供完全不同的可能性-例如文字转图像、音乐甚至视频。在GPT-4之前是GPT-3.5，由该模型开发的聊天机器人 ChatGPT 一经面世，便引爆 AI 界的军备竞赛多模态或成GPT-4最大亮点　　微软 AI 技术专家 Holger Kenn 和 Clemens Sieber 对多模态 AI 的相关功能进行了介绍。　　 Sieber 则介绍了一些多模态 AI 产业化的潜在案例，例如多模态 AI 能够将电话呼叫的语音直接记录成文本。根据估算，该功能能为微软位于荷兰的一家大客户节省 500 个工作小时/天。　　 GPT-4 GPT-4 模型是第四代大型语言模型（LLM），它将是一个多模态模型，会提供完全不同的可能性-例如文字转图像、音乐甚至视频。
1.7K31编辑于 2023-03-13
来自专栏算法一只狗
LLama4 原生多模态大模型
Meta最新发布了原生多模态大模型 Llama 4，一经亮相即登上LMSYS大模型排行榜第二名，仅次于Google的Gemini-2.5-pro，分差仅为22分，实力可见一斑。三个模型共同的技术特色： MoE混合专家架构：仅激活部分参数，大幅提升计算效率。多模态能力：整合文本、图像与视频数据，实现跨模态任务处理。技术细节与训练策略Llama 4采用了先进的早期融合（early fusion）机制，将文本和视觉token统一集成至模型主干架构，实现了真正的多模态统一训练。总结与展望Llama 4的发布，意味着Meta正式进入原生多模态大模型竞争核心领域。相比Gemini系列、GPT-4o、Claude 3、DeepSeek等主流模型，Llama 4以务实高效的技术路线，突出计算成本、推理效率与多模态能力的平衡。
77500编辑于 2025-05-01
来自专栏啄木鸟软件测试
多模态大模型技术原理与实战(4)
多模态大模型核心技术 1多模态的困难困难数据集标志困难人工标注生成 COCO Visual Genome ... 数据表征多模态转换 2文本多模态技术图像生成文本方法基于模板的图像描述方法支持向量机(SVM) 3种元索物体动作场景基于检索的图像描述方法搜寻相似之处基于深度学习的图像描述方法图像解码器把隐信息还原成图像 4语音多模态技术文本生成语音以前技术：拼接法和参数法基于非深度学习的文本生成语音技术隐马尔可夫模型 (HMM) 文本信息提取模块声学特征提取模块组成：3层降采样块和3层条件上采样块微软的 Natural Speech 2：结合了扩散模型的概念，通过使用神经语音编将语音波形转换为连续向量，然后使用解码器重建语音波形 5 视频多模态技术挑战可调整的低秩适配(Adaptive Low-Rank Adaptation，AdaLoRA)技术和量化压缩远程注意力(Quantized Long-Range Attention，QLoRA)技术 8 GPT-4多模型核心技术介绍
46210编辑于 2024-09-10
【多模态大模型】
多模态大模型的核心能力多模态大模型通过融合视觉、听觉、文本等多维度数据实现综合理解与生成。典型应用包括：图像到文本：识别图片内容并生成描述、广告文案或诗歌。跨模态检索：根据文本搜索相关图像/视频，或反之。代表模型如GPT-4V（视觉增强版）、通义千问多模态版、文心一言（ERNIE-ViLG）均支持此类任务。多模态对齐：模型将图像特征与文本语义空间对齐，生成候选描述。输出优化：通过强化学习调整生成文本的流畅性与吸引力。模型训练与优化要点数据准备：需对齐的多模态数据集（如COCO-Captions、AudioSet）。 API化：通过FastAPI封装模型，提供RESTful接口供业务系统调用。多模态大模型的应用需结合具体场景调整输入预处理与后处理逻辑，以达到最佳效果。
30610编辑于 2026-01-20
来自专栏存内计算加速大模型
腾讯发表多模态综述，什么是多模态大模型
多模态大语言模型（MLLM）是近年来兴起的一个新的研究热点，它利用强大的大语言模型作为大脑来执行多模态任务。在本文中，追踪多模态大模型最新热点，讨论多模态关键技术以及现有在情绪识别上的应用。，并且提供了现有主流的 26 个多模态大模型的简介，总结了提升多模态大模型性能的关键方法，多模态大模型脱胎于大模型的发展，传统的多模态模型面临着巨大的计算开销，而 LLMs 在大量训练后掌握了关于世界的多模态大模型的整体架构可以被归类为如下图的五个部分，整个多模态大模型的训练可以被分为多模态理解与多模态生成两个步骤。腾讯发表多模态大模型最新综述，从26个主流大模型看多模态效果提升关键方法
5.7K13编辑于 2024-05-14
来自专栏算法之名
多模态大模型篇
之后我们会把每一个a(\(a^1,a^2,a^3,a^4...\))乘以一个矩阵\(w^v\)，得到一组新的向量v(\(v^1,v^2,v^3,v^4...\))，每一个v与α相乘再相加就得到了\(b^ a^4\)四个向量合并成一个矩阵I，那么得到的四个向量\(q^1\)到\(q^4\)合并成一个矩阵Q。所有的\(a^1\)到\(a^4\)，它们都是一样的，一样的操作，一样的运算，没有前后之分。解码器有一个最大的问题，就是它的输入的数量跟输出的数量是不一致的，虽然我们上面的例子中是输入4个字符，输出4个字符，但事实并非如此。 _norm(x.float()).type_as(x) return output * self.weight 实验分析模型参数模型的参数量有4种。
1.5K51编辑于 2023-10-16
来自专栏CSDN社区搬运
Robust多模态模型的开发
Robust 多模态模型：寻找遗失的模态！近年来，随着网络视频的大量涌现，各种多模态任务日益备受关注。然而，这两种方法都无法科普非对齐序列中随机模态特征的缺失。本文提出了一种 Robust 的多模态模型来提高模型对非对齐模态序列随机缺失的鲁棒性。同时，我在流行的多模态任务–多模态情感计算的数据集上对模型进行了测试，得到了不错的效果，证明了该模型的可靠性。在这种情况下，需要一种能够处理随机模态特征缺失（RMFM）的模型。因此，在多模态任务中构建能够处理RMFM的模型仍然是一个开放的研究。模型结构和代码单模态特征提取模态特征提取模块首先用一维卷积层处理不完整的模态序列，以确保输入序列的每个元素都知道其相邻元素。
42110编辑于 2024-11-15
来自专栏CreateAMind
多模态大型语言模型综述
-4V 为代表的多模态大语言模型（Multimodal Large Language Model, MLLM）已成为一个新兴的研究热点，它利用强大的大语言模型（LLMs）作为“大脑”来执行多模态任务。随后，我们讨论了多模态幻觉问题及相关扩展技术，包括多模态上下文学习（Multimodal ICL, M-ICL）、多模态思维链（Multimodal CoT, M-CoT）和大语言模型辅助的视觉推理（LLM-Aided 索引术语—多模态大语言模型，视觉语言模型，大语言模型。 1 引言近年来，大语言模型（LLMs）[1]–[5] 取得了显著进展。，例如使用多模态指令微调 [19]、[20] 来促使模型遵循新指令。近期，随着更强大的多模态模型 GPT-4V 的发布，许多工作开始采用 GPT-4V 生成更高质量的数据，例如 LVIS-Instruct4V [91] 和 ALLaVA [92]。
73410编辑于 2026-03-11
来自专栏新智元
超越GPT-4V，苹果多模态大模型上新！
新智元报道编辑：flynne 【新智元导读】苹果开发的多模态模型Ferret-UI增强了对屏幕的理解和交互，在引用、基础和推理方面表现出了卓越的性能，这些增强功能的出现预示着巨大的进步。 4月8日，苹果发布了其最新的多模态大语言模型（MLLM ）——Ferret-UI，能够更有效地理解和与屏幕信息进行交互，在所有基本UI任务上都超过了GPT-4V！众所周知，通用域多模态大型语言模型（MLLM ）在理解和有效交互的能力方面往往不足。而Ferret-UI被称之为是一种新的MLLM，专为理解移动UI屏幕而量身定制，具备指向、定位和推理等多种能力。高级任务数据生成为了将推理能力融入到该模型中，他们使用LLaVA方法，并用GPT-4收集另外4种格式的数据。以上数据的生成主要为4个任务，分别是：详细描述、对话感知、对话交互和功能推理。其中，他们扩展了详细描述和函数推理的基本提示，将它们与GPT-4响应配对，作为模型训练中的输入数据。
38210编辑于 2024-04-12
来自专栏媒矿工厂
CVPR2023 Tutorial Talk | 大型多模态模型：构建和超越多模态GPT-4
今天我将试图帮助大家构建一个最小版本的多模态GPT-4。我将介绍不同的方式来利用大型语言模型(LLM)进行多模态任务。我认为 Flamingo 模型可以被认作是多模态领域的 GPT-3。图5 那么现在，今年3月初，我们看到 OpenAI 发布了多模态模型 GPT-4。尽管我们不知道模型细节。图6 在本次演讲中，我将尝试讲述我对我们如何实际取得这些结果的理解，以更好地说明现有模型和多模态 GPT-4 之间的差距。我使用 OpenAI GPT 系列模型的语言模型历史作为示例。当涉及到 GPT-4 时，在多模态领域有一个额外的功能，那就是允许图像输入。图7 现在我们也有了多模态 GPT-4。那么现在距离理想目标还存在差距，这里的差距是什么，我们如何可能填补这一差距? 我们还没有公开的多模态 GPT 模型，我们也没有好的 instructor，这是一个独特的挑战。图15 我们如何利用语言模型去构造一个多模态模型的指令数据呢？
1.4K30编辑于 2023-09-09
来自专栏AIGC 先锋科技
手机上的 GPT-4V 级多模态大型语言模型！
近年来，多模态大型语言模型（MLLMs）的爆发性增长已经从根本上改变了AI研究和产业的前景，为作者揭示了迈向下一个AI里程碑的光明道路。 1 Introduction 随着多模态大型语言模型（MLLM）的快速发展，作者的理解、推理和交互能力在多个模态下有了显著提升。 2 Related Works 多模态语言模型(MLLMs)的发展显著提高了MLLM的进展。跨多个语言的多模态能力对于为更广泛的社区用户提供服务至关重要。传统解决方案需要大量多模态数据的收集和清洗，以及为目标语言进行训练。多语言多模态能力。基于自监督视觉定位框架VisCPM的跨语言跨模态泛化方法，MiniCP-Llama3-V 2.5将多模态能力扩展到30多种语言。
55210编辑于 2024-08-19
来自专栏AI掘金志
核心指标超越GPT-4 Turbo！商汤多模态大模型「开箱」
我们能直观感觉到，多模态大模型在急剧变化。行业和打工人的福音，要来了？一、日日新·商量多模态5.0，开箱商汤日日新多模态5.0，不仅能理解文本，还能处理文档、图表、截图和照片中的内容。了解了这些，方能理解上文中展示的商汤多模态大模型的实力。商汤为什么能在多模态大模型上跑得如此快？其实一直都有迹可循。强大的算力供应、算法和数据 AI三要素，算力、算法、数据依然是入场券。自2023年4月发布“日日新”以来，商汤大模型以2个月至3个月一个版本的速度快速迭代，在短短1年，就迭代了5个版本。再看算法。前文提到，多模态最大的挑战是不同模态之间的语义鸿沟。多模态感知积淀感知能力是多模态能力核心中的核心。废话不多说，直接上数据。这个拥有超过千亿参数的多模态大模型的图文感知能力达到全球领先水平，具有全面知识系统，对现实世界的理解大幅提升。不仅在多模态大模型权威综合基准测试MMBench中综合得分排名首位，82.3（超过GPT-4V的77），在多个知名多模态榜单MathVista，AI2D，ChartQA，TextVQA，DocVQA，MMMU
62310编辑于 2024-04-28
来自专栏云社区活动
训练多模态模型的最佳实践
训练多模态模型的最佳实践【引言】大家好，我是Echo_Wish，今天咱们来聊聊多模态模型的训练最佳实践。啥是多模态？简单说，就是让模型像人一样，能听、能看、还能读。如今，多模态模型在自动驾驶、医疗影像、智能问答等领域大放异彩，但训练它们可不是件容易的事。今天我就带大家从数据准备、模型选择、训练优化到评估调优，系统地搞清楚如何高效训练多模态模型，并且会附上代码示例，确保大家能落地实践。1. 模型选择：一键复用还是自研？多模态模型可以分为两类：预训练模型（CLIP、BLIP、BEiT-3）：适用于迁移学习，省时省力。虽然训练过程充满挑战，但只要掌握数据处理、模型选择、训练优化和评估方法，就能高效训练出强大的多模态模型。
86210编辑于 2025-03-28
来自专栏自然语言处理(NLP)论文速递
剑桥 | 发布多模态检索器，赋能多模态大模型RAG应用
PreFLMR模型是一个通用的预训练多模态知识检索器，可用于搭建多模态RAG应用。图 1：GPT4-Vision 在 PreFLMR 多模态知识检索器的帮助下可以获得相关知识，生成正确的答案。图中展示了模型的真实输出。多模态知识提取器的知识 “召回能力” 直接决定了大模型在回答推理时能否获得准确的专业知识。图 2：PreFLMR 模型同时在多项任务上取得极佳的多模态检索表现，是一个极强的预训练基底模型。 2. 图 4：PreFLMR 可以同时处理图片提取文档、根据问题提取文档、根据问题和图片一起提取文档的多模态问询任务。
55810编辑于 2024-03-26
来自专栏人工智能
多模态AI与视觉语言模型
多模态AI正是这一方向的核心技术，CLIP、DALL-E、GPT-4V等模型的出现标志着我们进入了多模态智能的新时代。其成功催生了后续众多工作： Stable Diffusion：使用CLIP进行图像-文本对齐 LLaVA：结合CLIP视觉编码器和语言模型 Flamingo：多模态上下文学习多模态架构设计早期融合挑战与未来方向模态对齐：如何更精确地对齐不同模态的语义长尾分布：处理罕见的多模态组合计算效率：大规模多模态模型的推理加速可解释性：理解多模态模型的决策过程世界知识：将多模态学习与世界知识结合通过CLIP等模型的实践，我们看到跨模态理解不仅可行，而且效果惊人。从零样本分类到图像生成，从视觉问答到多模态对话，多模态技术正在不断拓展AI的能力边界。未来，随着模型规模的扩大和训练数据的积累，多模态AI将在更多领域发挥作用，为人机交互带来革命性变化。掌握多模态学习的技术，将帮助读者在AI浪潮中把握机遇，创造更智能的应用。
42610编辑于 2026-01-21
【论文解读】多模态大模型综述
一、简要介绍多模态大语言模型（MLLM）是近年来一个新兴的研究热点，它利用强大的大语言模型（LLM）作为大脑进行多模态研究。 LaVIN设计了一种混合模态适配器来动态决定多模态嵌入的权重。专家模型除了可学习的接口外，使用专家模型，如图像字幕模型，也是一种可行的弥补模态差距的方法。不同的是，专家模型背后的想法是不经过训练就将多模态输入转换成语言。这样，LLM就可以通过转换后的语言间接地理解多模态性。这种方法常用于评价多模态对话的表现。LLaVA 提出通过GPT-4对不同方面的回答进行评分，如帮助性和准确性。基于GPT-4的评分的一个主要问题是，目前它的多模态接口还不公开。因此，GPT-4只能基于与图像相关的文本内容生成响应，如标题或边界框坐标，而不需要访问图像。
7.7K20编辑于 2024-03-12
来自专栏云云众生s
通用多模态AI模型的兴起
通用的多模态模型 (GMM) 能够轻松地跨不同模态学习，并在不同类型的任务中表现良好。正是由于多模态AI潜在的下游影响，现在人们更加关注构建真正“通用”的多模态AI模型。这种通用多模态模型 (GMMs) 能够轻松地跨不同模态学习，并在面对不同类型任务时适应并表现良好。当前通用多模态AI模型的示例包括： NExT-GPT OneLLM Meta-Transformer OFA+ Unified-IO 基础模型铺平道路当前通向通用多模态模型的轨迹源于预训练的深度学习基础模型例如，基于文本的数据可以由任何大型语言模型处理，而图像可以由像CLIP这样的模型编码，或者各种模态可以由像ImageBind这样的多模态模型编码。其他障碍包括缺乏足够复杂的基准来评估通用多模态模型（GMMs），而通常的基准主要针对文本和图像。另一个障碍是当前的多模态学习严重偏向于跨模态学习，这往往偏向于图像和文本而不是其他模态。
36110编辑于 2025-01-08
多模态大模型训练营
多模态大模型训练营：将AI技术融入日常生活的思考在参加"多模态大模型训练营"的过程中，我逐渐意识到，作为程序员学习的不仅是技术本身，更是一种全新的思维方式。现在，我学会了像多模态模型那样，先对信息进行分类和优先级排序：重要且紧急的事项如同需要立即处理的输入信号，而长期目标则像模型的训练过程，需要持续投入和调整。我开始将任务视为不同的"模态"，找到它们之间的关联，制定出更高效的处理策略。沟通能力的潜移默化提升多模态模型擅长理解上下文和语义nuance，这启发我改善了自己的沟通方式。多模态模型的"融合"理念让我学会从多个角度分析问题，结合不同的资源和思路，创造出更创新的解决方法。无论是规划旅行路线还是解决家庭事务，这种跨领域思考都带来了意想不到的好结果。多模态大模型训练营给我的不仅是技术知识，更是一套应对复杂现代生活的思维工具。它让我明白，最好的技术是那些能够无缝融入生活、提升生活质量而不过度引人注目的工具。
18310编辑于 2025-11-22
来自专栏科学最Top
ChatTime：多模态时间序列基础模型
ChatTime，支持零样本预测和双模态输入输出，通过实验验证其在多种任务和场景下性能优越，还创建了多模态数据集，为时间序列分析提供了新视角与解决方案。人类专家经常整合多模态信息进行时间序列预测。例如，经济学家将历史金融数据序列与政策报告相结合，以预测未来市场趋势。这就引出了一个问题：是否有可能构建一个多模态时间序列基础模型，既允许零样本推理，又支持时间序列和文本双模态输入和输出？本文模型总体思路：训练过程分为两个阶段：持续预训练和指令微调。这两个阶段均使用带有低秩自适应（LoRA）的 4 位量化模型。基本思路：首先通过归一化、离散化以及添加标记字符，将时间序列编码成外语。这些任务分别考察基础模型在时间序列到时间序列、文本到时间序列以及时间序列到文本的模态转换能力。实验结果证实了ChatTime在多个任务和场景中的卓越性能，凸显了其作为多模态时间序列基础模型的潜力。
58311编辑于 2025-03-24
来自专栏圆圆的算法笔记
如何使用多类型数据预训练多模态模型？
其中涉及的方法包括：多模态模型结构上的统一、多模态数据格式上的统一、单模态数据引入、多类型数据分布差异问题优化4种类型。因此，FLAVA提出，在训练多模态模型时，同时引入图像领域和NLP领域的单模态任务，提升单模态模型的效果，这有助于多模态模型后续的训练。在训练过程中，首先使用单模态任务（MIM、MLM）进行单模态模型的预训练，然后再同时使用单模态和多模态任务继续训练。下表对比了FLAVA和其他多模态模型在训练数据、预训练任务和可解决的模态上的差异。FLAVA使用了多种单模态数据，让模型能够同时处理单模态和多模态任务。近期的论文中，这类工作表多，是目前业内研究的热点，也是能够显著提高多模态模型效果的方法。 END
2.8K20编辑于 2022-09-22

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

GPT-4多模态模型

LLama4 原生多模态大模型

多模态大模型技术原理与实战(4)

【多模态大模型】

腾讯发表多模态综述，什么是多模态大模型

多模态大模型篇

Robust多模态模型的开发

多模态大型语言模型综述

超越GPT-4V，苹果多模态大模型上新！

CVPR2023 Tutorial Talk | 大型多模态模型：构建和超越多模态GPT-4

手机上的 GPT-4V 级多模态大型语言模型！

核心指标超越GPT-4 Turbo！商汤多模态大模型「开箱」

训练多模态模型的最佳实践

剑桥 | 发布多模态检索器，赋能多模态大模型RAG应用

多模态AI与视觉语言模型

【论文解读】多模态大模型综述

通用多模态AI模型的兴起

多模态大模型训练营

ChatTime：多模态时间序列基础模型

如何使用多类型数据预训练多模态模型？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐