搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏云云众生s
5个实际开源的多模态AI模型
了解最新的开源多模态AI系统，以下列出了五个领先的选项，包括其功能和用途。虽然市场上已经存在许多强大的、专有的多模态AI系统，但小型多模态AI模型和开源替代方案也正在迅速发展，因为用户不断寻求更易访问和更易适应的选项，并优先考虑透明度和协作。 Aria 最近推出的Aria AI模型来自Rhymes AI，被誉为世界首个开源的多模态原生专家混合 (MoE) 模型，它可以在一个架构中处理文本、代码、图像和视频。这些特性使Leopard成为多页文档理解（例如幻灯片、科学和财务报告）、数据可视化、网页理解以及部署能够处理视觉复杂环境中任务的多模态AI代理的优秀工具。 Leopard的整体模型流程。 3. 5. xGen-MM 也被称为 BLIP-3，这是来自Salesforce 的一套最先进的开源多模态模型，它包含一系列变体，包括一个预训练基础模型，一个指令微调模型和一个旨在减少有害输出的安全微调模型。
2.1K10编辑于 2024-12-14
来自专栏云云众生s
5个小型多模态AI模型及其功能
随着对多模态AI系统兴趣的增长，这些多功能工具的小型版本也随之增多。 TinyGPT-V 这款功能强大且资源高效的28亿参数多模态模型可以处理文本和图像输入，并在使用比大型同类产品少得多的资源的同时保持令人印象深刻的性能水平。 GPT-4o mini GPT-4o mini作为OpenAI GPT-4o多模态模型的较小且更便宜的版本发布，其运行成本比OpenAI模型系列中以前最实惠的模型GPT-3.5 Turbo低约60%。 5. Mississippi 2B 和 Mississippi 0.8B 最近由H2O.ai发布，这两个多模态基础模型专为OCR和文档AI用例而设计。结论多模态模型以及大型语言模型的可访问性和成本效益仍然是主要问题。但随着越来越多的相对轻量级但功能强大的多模态AI选项可用，这意味着更多机构和小型企业将能够在其工作流程中采用AI。
71010编辑于 2024-12-04
来自专栏啄木鸟软件测试
多模态大模型技术原理及实战(5)
国内外多模态大模型对比国内 LLaMA-Adapter V2 香港中文大学双语输出输入 •图像 •语音 •文本 •视频 • 3D 点云起源：LLaMA-Adapter •在线性层上进行偏差调整 •4、ChatGLM-6B 在 GLM 框架下，专门针对中文问答和对话进行了优化 mPLUG-Owl 阿里巴巴达摩研究院 2023年5月架构 •视觉基础模块(采用开源的VTL-L) •视觉抽象模块多模态大模型评测数据集国内评测数据集 OwlEval •基于mPLUG-Owl模型发布 • 包含 •50 张图片 •82 个回题 •功能 •故事生成 •广告生成 •代码生成 MME •开发 •结构 •265 016张图片 •每张图片至少有 3 个问题(平均 5.4个每个问题） •每个问题 •有 10 个基本事实答案 •有 3 个合理(但可能不正确)的答案多模态大模型的评测标准国内评测标准 •KROCC( Kendall Rank Order Correlation Coefficient，肯德尔秩相关系数) •RMSE( Root Mean Square Error,均方根误差 ) 多模态大模型对比
35810编辑于 2024-09-10
【多模态大模型】
多模态大模型的核心能力多模态大模型通过融合视觉、听觉、文本等多维度数据实现综合理解与生成。典型应用包括：图像到文本：识别图片内容并生成描述、广告文案或诗歌。跨模态检索：根据文本搜索相关图像/视频，或反之。代表模型如GPT-4V（视觉增强版）、通义千问多模态版、文心一言（ERNIE-ViLG）均支持此类任务。多模态对齐：模型将图像特征与文本语义空间对齐，生成候选描述。输出优化：通过强化学习调整生成文本的流畅性与吸引力。模型训练与优化要点数据准备：需对齐的多模态数据集（如COCO-Captions、AudioSet）。 API化：通过FastAPI封装模型，提供RESTful接口供业务系统调用。多模态大模型的应用需结合具体场景调整输入预处理与后处理逻辑，以达到最佳效果。
30610编辑于 2026-01-20
来自专栏存内计算加速大模型
腾讯发表多模态综述，什么是多模态大模型
多模态大语言模型（MLLM）是近年来兴起的一个新的研究热点，它利用强大的大语言模型作为大脑来执行多模态任务。在本文中，追踪多模态大模型最新热点，讨论多模态关键技术以及现有在情绪识别上的应用。，并且提供了现有主流的 26 个多模态大模型的简介，总结了提升多模态大模型性能的关键方法，多模态大模型脱胎于大模型的发展，传统的多模态模型面临着巨大的计算开销，而 LLMs 在大量训练后掌握了关于世界的多模态大模型的整体架构可以被归类为如下图的五个部分，整个多模态大模型的训练可以被分为多模态理解与多模态生成两个步骤。 5.多模态应用以下是多模态大模型在表情识别和效价唤醒(VA)的应用，挑战要求参与者以时间连续的方式(即每0.25秒)预测情绪维度(即唤醒和效价)我们提出的方法主要由三个模块组成:预处理和特征提取模块、损失函数和融合模块
5.7K13编辑于 2024-05-14
来自专栏算法之名
多模态大模型篇
所需资源更小：LLaMA比其他模型更高效，资源密集度更低，因为它使用在更多tokens上训练的较小模型。这意味着它需要更少的计算能力和资源来训练和运行这些模型，也需要更少的内存和带宽来存储和传输它们。实验结果由上图我们可以看到，模型的损失和Tokens之间的关系为当Tokens的数量不断增大的时候，模型的损失在不断的降低。该实验体现了在训练大模型时，数据量的重要性。 GLM-130B使用了GLM算法，实现双向密集连接的模型结构，提高了模型的表达能力和泛化能力。 2023.3.14，千亿对话模型ChatGLM开始内测，60亿参数ChatGLM-6B模型开源。应用同时开源ChatGLM-6B模型，ChatGLM-6B是一个具有62亿参数的中英双语言模型。 encoder-decoder则是一个完整的Transformer结构，包括一个编码器和一个解码器，以T5、BART为代表，常用于有条件的生成任务(conditional generation)。
1.5K51编辑于 2023-10-16
来自专栏CSDN社区搬运
Robust多模态模型的开发
Robust 多模态模型：寻找遗失的模态！近年来，随着网络视频的大量涌现，各种多模态任务日益备受关注。然而，这两种方法都无法科普非对齐序列中随机模态特征的缺失。本文提出了一种 Robust 的多模态模型来提高模型对非对齐模态序列随机缺失的鲁棒性。同时，我在流行的多模态任务–多模态情感计算的数据集上对模型进行了测试，得到了不错的效果，证明了该模型的可靠性。在这种情况下，需要一种能够处理随机模态特征缺失（RMFM）的模型。因此，在多模态任务中构建能够处理RMFM的模型仍然是一个开放的研究。模型结构和代码单模态特征提取模态特征提取模块首先用一维卷积层处理不完整的模态序列，以确保输入序列的每个元素都知道其相邻元素。
42110编辑于 2024-11-15
来自专栏CreateAMind
多模态大型语言模型综述
-4V 为代表的多模态大语言模型（Multimodal Large Language Model, MLLM）已成为一个新兴的研究热点，它利用强大的大语言模型（LLMs）作为“大脑”来执行多模态任务。随后，我们讨论了多模态幻觉问题及相关扩展技术，包括多模态上下文学习（Multimodal ICL, M-ICL）、多模态思维链（Multimodal CoT, M-CoT）和大语言模型辅助的视觉推理（LLM-Aided 索引术语—多模态大语言模型，视觉语言模型，大语言模型。 1 引言近年来，大语言模型（LLMs）[1]–[5] 取得了显著进展。，例如使用多模态指令微调 [19]、[20] 来促使模型遵循新指令。随后，我们深入探讨若干重要主题，每个主题聚焦一个核心问题：(1) 哪些方面可进一步改进或扩展（§5）？(2) 如何缓解多模态幻觉问题（§6）？
73410编辑于 2026-03-11
来自专栏ytkah
GPT-4多模态模型
GPT-4 模型是OpenAI开发的第四代大型语言模型（LLM），它将是一个多模态模型，会提供完全不同的可能性-例如文字转图像、音乐甚至视频。 Sieber 对多模态 AI 的相关功能进行了介绍。　　 Sieber 则介绍了一些多模态 AI 产业化的潜在案例，例如多模态 AI 能够将电话呼叫的语音直接记录成文本。根据估算，该功能能为微软位于荷兰的一家大客户节省 500 个工作小时/天。　　 -1 约 5 GB）。 GPT-4 GPT-4 模型是第四代大型语言模型（LLM），它将是一个多模态模型，会提供完全不同的可能性-例如文字转图像、音乐甚至视频。
1.7K31编辑于 2023-03-13
来自专栏云云众生s
用于训练多模态AI模型的5个有用数据集
然而，构建有用的多模态AI模型需要高质量的多模态数据集，这些数据集是训练这些多功能系统的必要燃料——使它们能够超越单一维度或模式，扩展对世界的理解。同样的想法也适用于各种各样的任务，例如视频分析、视听语音识别、跨模态检索、医学诊断等等。这是因为多模态数据集使AI模型能够学习对象及其上下文之间更复杂的语义关系，从而提高模型的性能和准确性。该数据集的庞大规模意味着模型可以更广泛地掌握现有的科学和技术研究在线语料库。根据研究团队的说法，目标是创建一个包含“图像和文本的自由形式交错序列”的数据集，适合训练大型多模态AI模型。这些只是大量可用多模态数据集中的少数几个——更不用说也日益受到关注的多语言数据集了。有如此多的选择，找到合适的训练AI模型的数据集相对容易。更多信息，请查看我们关于构建多模态AI应用程序的工具的帖子，以及一些开源和小型多模态AI模型。
1.6K10编辑于 2025-01-17
来自专栏云社区活动
训练多模态模型的最佳实践
训练多模态模型的最佳实践【引言】大家好，我是Echo_Wish，今天咱们来聊聊多模态模型的训练最佳实践。啥是多模态？简单说，就是让模型像人一样，能听、能看、还能读。如今，多模态模型在自动驾驶、医疗影像、智能问答等领域大放异彩，但训练它们可不是件容易的事。今天我就带大家从数据准备、模型选择、训练优化到评估调优，系统地搞清楚如何高效训练多模态模型，并且会附上代码示例，确保大家能落地实践。1. 模型选择：一键复用还是自研？多模态模型可以分为两类：预训练模型（CLIP、BLIP、BEiT-3）：适用于迁移学习，省时省力。虽然训练过程充满挑战，但只要掌握数据处理、模型选择、训练优化和评估方法，就能高效训练出强大的多模态模型。
86210编辑于 2025-03-28
来自专栏自然语言处理(NLP)论文速递
剑桥 | 发布多模态检索器，赋能多模态大模型RAG应用
PreFLMR模型是一个通用的预训练多模态知识检索器，可用于搭建多模态RAG应用。多模态知识提取器的知识 “召回能力” 直接决定了大模型在回答推理时能否获得准确的专业知识。该模型经过百万级的多模态数据预训练后，在多个下游检索任务中取得了优秀的表现。同时，作为一个优秀的基底模型，PreFLMR 在私有数据上稍加训练就能够获得表现极佳的领域专用模型。图 2：PreFLMR 模型同时在多项任务上取得极佳的多模态检索表现，是一个极强的预训练基底模型。 2. 图 5：M2KR 数据集中的部分知识提取任务 PreFLMR 检索模型图 6：PreFLMR 的模型结构。问询（Query）被编码为 Token-level 的特征。
55810编辑于 2024-03-26
来自专栏人工智能
多模态AI与视觉语言模型
多模态AI正是这一方向的核心技术，CLIP、DALL-E、GPT-4V等模型的出现标志着我们进入了多模态智能的新时代。其成功催生了后续众多工作： Stable Diffusion：使用CLIP进行图像-文本对齐 LLaVA：结合CLIP视觉编码器和语言模型 Flamingo：多模态上下文学习多模态架构设计早期融合挑战与未来方向模态对齐：如何更精确地对齐不同模态的语义长尾分布：处理罕见的多模态组合计算效率：大规模多模态模型的推理加速可解释性：理解多模态模型的决策过程世界知识：将多模态学习与世界知识结合通过CLIP等模型的实践，我们看到跨模态理解不仅可行，而且效果惊人。从零样本分类到图像生成，从视觉问答到多模态对话，多模态技术正在不断拓展AI的能力边界。未来，随着模型规模的扩大和训练数据的积累，多模态AI将在更多领域发挥作用，为人机交互带来革命性变化。掌握多模态学习的技术，将帮助读者在AI浪潮中把握机遇，创造更智能的应用。
42610编辑于 2026-01-21
【论文解读】多模态大模型综述
一、简要介绍多模态大语言模型（MLLM）是近年来一个新兴的研究热点，它利用强大的大语言模型（LLM）作为大脑进行多模态研究。相比之下，传统的多模态模型仍然局限于前两个调优范式，缺乏zero-shot能力。因此，最近的许多工作都探索了将LLM中的指令调优的成功扩展到多模态。为了从单模态扩展到多模态，对数据和模型都需要进行相应的自适应。对于这些数据，研究人员通常通过调整现有的基准数据集或通过自指令来获取M-IT数据集。 LaVIN设计了一种混合模态适配器来动态决定多模态嵌入的权重。专家模型除了可学习的接口外，使用专家模型，如图像字幕模型，也是一种可行的弥补模态差距的方法。不同的是，专家模型背后的想法是不经过训练就将多模态输入转换成语言。这样，LLM就可以通过转换后的语言间接地理解多模态性。
7.7K20编辑于 2024-03-12
来自专栏云云众生s
通用多模态AI模型的兴起
通用的多模态模型 (GMM) 能够轻松地跨不同模态学习，并在不同类型的任务中表现良好。正是由于多模态AI潜在的下游影响，现在人们更加关注构建真正“通用”的多模态AI模型。这种通用多模态模型 (GMMs) 能够轻松地跨不同模态学习，并在面对不同类型任务时适应并表现良好。当前通用多模态AI模型的示例包括： NExT-GPT OneLLM Meta-Transformer OFA+ Unified-IO 基础模型铺平道路当前通向通用多模态模型的轨迹源于预训练的深度学习基础模型例如，基于文本的数据可以由任何大型语言模型处理，而图像可以由像CLIP这样的模型编码，或者各种模态可以由像ImageBind这样的多模态模型编码。其他障碍包括缺乏足够复杂的基准来评估通用多模态模型（GMMs），而通常的基准主要针对文本和图像。另一个障碍是当前的多模态学习严重偏向于跨模态学习，这往往偏向于图像和文本而不是其他模态。
36110编辑于 2025-01-08
多模态大模型训练营
多模态大模型训练营：将AI技术融入日常生活的思考在参加"多模态大模型训练营"的过程中，我逐渐意识到，作为程序员学习的不仅是技术本身，更是一种全新的思维方式。现在，我学会了像多模态模型那样，先对信息进行分类和优先级排序：重要且紧急的事项如同需要立即处理的输入信号，而长期目标则像模型的训练过程，需要持续投入和调整。我开始将任务视为不同的"模态"，找到它们之间的关联，制定出更高效的处理策略。沟通能力的潜移默化提升多模态模型擅长理解上下文和语义nuance，这启发我改善了自己的沟通方式。多模态模型的"融合"理念让我学会从多个角度分析问题，结合不同的资源和思路，创造出更创新的解决方法。无论是规划旅行路线还是解决家庭事务，这种跨领域思考都带来了意想不到的好结果。多模态大模型训练营给我的不仅是技术知识，更是一套应对复杂现代生活的思维工具。它让我明白，最好的技术是那些能够无缝融入生活、提升生活质量而不过度引人注目的工具。
18310编辑于 2025-11-22
来自专栏科学最Top
ChatTime：多模态时间序列基础模型
2412.11376 代码链接：https://github.com/ForestsKing/ChatTime 本文针对传统时间序列预测方法的局限，创新地将时间序列建模为外语（foreign language），构建多模态时间序列基础模型 ChatTime，支持零样本预测和双模态输入输出，通过实验验证其在多种任务和场景下性能优越，还创建了多模态数据集，为时间序列分析提供了新视角与解决方案。人类专家经常整合多模态信息进行时间序列预测。例如，经济学家将历史金融数据序列与政策报告相结合，以预测未来市场趋势。这就引出了一个问题：是否有可能构建一个多模态时间序列基础模型，既允许零样本推理，又支持时间序列和文本双模态输入和输出？这些任务分别考察基础模型在时间序列到时间序列、文本到时间序列以及时间序列到文本的模态转换能力。实验结果证实了ChatTime在多个任务和场景中的卓越性能，凸显了其作为多模态时间序列基础模型的潜力。
58311编辑于 2025-03-24
来自专栏圆圆的算法笔记
如何使用多类型数据预训练多模态模型？
其中涉及的方法包括：多模态模型结构上的统一、多模态数据格式上的统一、单模态数据引入、多类型数据分布差异问题优化4种类型。因此，FLAVA提出，在训练多模态模型时，同时引入图像领域和NLP领域的单模态任务，提升单模态模型的效果，这有助于多模态模型后续的训练。下表对比了FLAVA和其他多模态模型在训练数据、预训练任务和可解决的模态上的差异。FLAVA使用了多种单模态数据，让模型能够同时处理单模态和多模态任务。这表明模型学到了如何区分不同类型的数据，并将其存储到prefix prompt的向量中，用来影响整个句子的表示生成。 5 总结本文介绍了多模态模型优化中的引入多种类型数据的研究方向。近期的论文中，这类工作表多，是目前业内研究的热点，也是能够显著提高多模态模型效果的方法。 END
2.8K20编辑于 2022-09-22
来自专栏DeepHub IMBA
使用高斯混合模型拆分多模态分布
本文介绍如何使用高斯混合模型将一维多模态分布拆分为多个分布。生成具有多模态分布的数据当一个数据集显示出多个不同的峰值或模态时，通常会出现显示出多个不同的峰值或模态，每个模态代表分布中一个突出的数据点簇或集中。这些模式可以看作是数据值更可能出现的高密度区域。 import numpy as np dist_1 = np.random.normal(10, 3, 1000) dist_2 = np.random.normal(30, 5, 4000) sns sns.set_style('whitegrid') plt.hist(multimodal_dist, bins=50, alpha=0.5) plt.show() 使用高斯混合模型拆分多模态分布下面我们将通过使用高斯混合模型计算每个分布的均值和标准差，将多模态分布分离回三个原始分布。
66330编辑于 2023-09-28
来自专栏新智元
中文多模态模型问世！IDPChat生成图像文字，只需5步+单GPU
---- 新智元报道编辑：桃子拉燕【新智元导读】中文多模态模型IDPChat来了，快速上手教程在此。中文多模态模型IDPChat和大家见面了。随着GPT4、文心一言等的发布，预训练大模型正式开启由单模态向多模态模型演进。多模态的特性为语言模型带来更加丰富的应用场景。我们认为，未来的AI应用将主要以大模型为核心基石。我们以IDP平台为工具支撑，以预训练大语言模型LLaMA和开源文生图预训练模型Stable Diffusion为基础，快速构建了多模态大模型应用IDPChat。编译成功后执行 run.sh 脚本启动服务 5. 我们相信 IDP 平台和 IDPChat 将成为您探索多模态大模型应用和私有化大模型构建的得力助手。
33920编辑于 2023-05-09

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

5个实际开源的多模态AI模型

5个小型多模态AI模型及其功能

多模态大模型技术原理及实战(5)

【多模态大模型】

腾讯发表多模态综述，什么是多模态大模型

多模态大模型篇

Robust多模态模型的开发

多模态大型语言模型综述

GPT-4多模态模型

用于训练多模态AI模型的5个有用数据集

训练多模态模型的最佳实践

剑桥 | 发布多模态检索器，赋能多模态大模型RAG应用

多模态AI与视觉语言模型

【论文解读】多模态大模型综述

通用多模态AI模型的兴起

多模态大模型训练营

ChatTime：多模态时间序列基础模型

如何使用多类型数据预训练多模态模型？

使用高斯混合模型拆分多模态分布

中文多模态模型问世！IDPChat生成图像文字，只需5步+单GPU

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐