首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 模态模型

    模态模型的核心能力 模态模型通过融合视觉、听觉、文本等多维度数据实现综合理解与生成。典型应用包括: 图像到文本:识别图片内容并生成描述、广告文案或诗歌。 跨模态检索:根据文本搜索相关图像/视频,或反之。 代表模型如GPT-4V(视觉增强版)、通义千问模态版、文心一言(ERNIE-ViLG)均支持此类任务。 模态对齐:模型将图像特征与文本语义空间对齐,生成候选描述。 输出优化:通过强化学习调整生成文本的流畅性与吸引力。 模型训练与优化要点 数据准备:需对齐的模态数据集(如COCO-Captions、AudioSet)。 API化:通过FastAPI封装模型,提供RESTful接口供业务系统调用。 模态模型的应用需结合具体场景调整输入预处理与后处理逻辑,以达到最佳效果。

    29010编辑于 2026-01-20
  • 来自专栏算法之名

    模态模型

    因为有一段的词向量,如果我们只是把它们的每个词向量简单的丢入到神经网络中,可能我们什么都得不到。 因为对于一个句子来说,我们可能更多关心的是每个词之间的位置关系以及词与词之间的语义关系。 因为模型的参数量很大,要进行稳定的训练是比较困难的。 实验结果 由上图我们可以看到,模型的损失和Tokens之间的关系为当Tokens的数量不断增大的时候,模型的损失在不断的降低。该实验体现了在训练模型时,数据量的重要性。 贡献和创新 GLM-130B是目前较大的开源双语预训练模型,而GLM-6B也是可以在单个服务器上单张GPU上支持推理的模型。 2023.3.14,千亿对话模型ChatGLM开始内测,60亿参数ChatGLM-6B模型开源。 应用 同时开源ChatGLM-6B模型,ChatGLM-6B是一个具有62亿参数的中英双语言模型

    1.5K51编辑于 2023-10-16
  • 来自专栏存内计算加速大模型

    腾讯发表模态综述,什么是模态模型

    模态语言模型(MLLM)是近年来兴起的一个新的研究热点,它利用强大的语言模型作为大脑来执行模态任务。 在本文中,追踪模态模型最新热点,讨论模态关键技术以及现有在情绪识别上的应用。 ,并且提供了现有主流的 26 个模态模型的简介,总结了提升模态模型性能的关键方法,模态模型脱胎于模型的发展,传统的模态模型面临着巨大的计算开销,而 LLMs 在大量训练后掌握了关于世界的 “先验知识”,因而一种自然的想法就是使用 LLMs 作为模态模型的先验知识与认知推动力,来加强多模态模型的性能并且降低其计算开销,从而模态模型这一“新领域”应运而生。 模态模型的整体架构可以被归类为如下图的五个部分,整个模态模型的训练可以被分为模态理解与模态生成两个步骤。

    5.6K13编辑于 2024-05-14
  • 【论文解读】模态模型综述

    一、简要介绍 模态语言模型(MLLM)是近年来一个新兴的研究热点,它利用强大的语言模型(LLM)作为大脑进行模态研究。 相比之下,传统的模态模型仍然局限于前两个调优范式,缺乏zero-shot能力。因此,最近的许多工作都探索了将LLM中的指令调优的成功扩展到模态。 为了从单模态扩展到模态,对数据和模型都需要进行相应的自适应。对于这些数据,研究人员通常通过调整现有的基准数据集或通过自指令来获取M-IT数据集。 LaVIN设计了一种混合模态适配器来动态决定模态嵌入的权重。 专家模型 除了可学习的接口外,使用专家模型,如图像字幕模型,也是一种可行的弥补模态差距的方法。 不同的是,专家模型背后的想法是不经过训练就将模态输入转换成语言。这样,LLM就可以通过转换后的语言间接地理解模态性。

    7.7K20编辑于 2024-03-12
  • 模态模型训练营

    模态模型训练营:将AI技术融入日常生活的思考在参加"模态模型训练营"的过程中,我逐渐意识到,作为程序员学习的不仅是技术本身,更是一种全新的思维方式。 从技术理解到生活应用模态模型的核心在于整合不同类型的信息——文本、图像、声音等,这与我们日常生活中处理信息的方式不谋而合。训练营教会我的不是单纯的编程技巧,而是如何让技术服务于人的真实需求。 现在,我学会了像模态模型那样,先对信息进行分类和优先级排序:重要且紧急的事项如同需要立即处理的输入信号,而长期目标则像模型的训练过程,需要持续投入和调整。 我开始将任务视为不同的"模态",找到它们之间的关联,制定出更高效的处理策略。沟通能力的潜移默化提升模态模型擅长理解上下文和语义nuance,这启发我改善了自己的沟通方式。 模态模型训练营给我的不仅是技术知识,更是一套应对复杂现代生活的思维工具。它让我明白,最好的技术是那些能够无缝融入生活、提升生活质量而不过度引人注目的工具。

    17710编辑于 2025-11-22
  • 来自专栏腾讯技术工程官方号的专栏

    ​浅析模态模型的前世今生

    模型模态能力到底是怎么来的?今天来分享一下模态相关的一些工作和个人的理解。 MiniGPT-4:LLM 助力模态 对于 GPT4 能够具有超强的图文理解能力,作者们的理解是这是得益于语言模型的能力,因此考虑将最新的一些能跟 ChatGPT “媲美”的语言模型引入其中,这里采用了 此时的感受就是:语言模型牛 X、高质量数据牛 X,一些基于开源 LLM 进行修改的模态模型也开始百花齐放。 个人总结 看了这些模态的研究后,模态的研究做的事情主要是: 不同模态进行对齐; 不同模态进行融合; 指令微调促进人机交互,数据的质量可能比数量更重要; 模型设计既要保证检索任务下的高效推理,又要能够进行模态深度融合 ; 进入语言模型时代前,用更大的图像编码器一般是更有效的; 进入语言模型时代后,图文理解能力的强大可能来自于语言模型的能力; 进入语言模型时代后,视觉优先仍然是值得探索的方向,但是训练视觉模型向来是比较困难的

    5.2K84编辑于 2023-11-01
  • 来自专栏算法一只狗

    LLama4 原生模态模型

    Meta最新发布了原生模态模型 Llama 4,一经亮相即登上LMSYS模型排行榜第二名,仅次于Google的Gemini-2.5-pro,分差仅为22分,实力可见一斑。 三个模型共同的技术特色: MoE混合专家架构:仅激活部分参数,大幅提升计算效率。 模态能力:整合文本、图像与视频数据,实现跨模态任务处理。 技术细节与训练策略Llama 4采用了先进的早期融合(early fusion)机制,将文本和视觉token统一集成至模型主干架构,实现了真正的模态统一训练。 总结与展望Llama 4的发布,意味着Meta正式进入原生模态模型竞争核心领域。 相比Gemini系列、GPT-4o、Claude 3、DeepSeek等主流模型,Llama 4以务实高效的技术路线,突出计算成本、推理效率与模态能力的平衡。

    75200编辑于 2025-05-01
  • 来自专栏自然语言处理(NLP)论文速递

    剑桥 | 发布模态检索器,赋能模态模型RAG应用

    PreFLMR模型是一个通用的预训练模态知识检索器,可用于搭建模态RAG应用。 preflmr.github.io/ 论文标题:PreFLMR: Scaling Up Fine-Grained Late-Interaction Multi-modal Retrievers 背景 尽管模态模型 针对这个问题,检索增强生成(RAG,Retrieval-Augmented Generation)提供了一个简单有效的让模态模型成为” 领域专家” 的方案:首先,一个轻量的知识检索器(Knowledge 模态知识提取器的知识 “召回能力” 直接决定了模型在回答推理时能否获得准确的专业知识。 3.PreFLMR 能够根据用户输入的指令(例如 “提取能用于回答以下问题的文档” 或 “提取与图中物品相关的文档”),从庞大的知识库中提取相关的文档,帮助模态模型大幅提升在专业知识问答任务上的表现

    55110编辑于 2024-03-26
  • 来自专栏程序随笔

    聊聊模态模型处理的思考

    模态:文本、音频、视频、图像等形态的展现形式。 目前部门内业务要求领域模型需要是模态——支持音频/文本。从个人思考的角度来审视下,审视下模态模型的实现方式。 首先就要区分输入与输出,即输入的模态与输出的模态。从目前来看,模型的输出大多都是文本,模型的输入一般是图片/文本;但少数的模型比如QWen、讯飞星火等支持语音的输入。 模态基座模型 即原生基座模型,比如GLM、LlaMa2、QWen、文心一言等基座模型支持模态的输入输出,从个人调研来看,GLM、文心一言对这方面的支持比较弱,仅支持文本/图像;LlaMa2有开源的实现支持文本 魔塔社区/HuggingFace上,已经开源了很多高质量的模态模型,截个图展示下: 文本化处理 使用开源/商务组件处理输入的内容,将其文本化,再输入到模型中;然后再经历输入部分的流程。 总结 最终来看,第一个方案肯定是最合适的;但如果对于选型的模型不支持模态的情况下,考虑开源实现或是第二张方案,但要综合调研其带来的影响,并不是简单的转文本就行。

    79110编辑于 2024-03-27
  • 来自专栏机器学习与生成对抗网络

    综述论文 | 模态视觉模型

    本文系统回顾了模态LLMs中最新的视觉语言指令调优设置和数据集,并总结了高质量视觉语言调优数据应具备的特征。 Comprehensive Survey on Multimodal Large Language Model https://arxiv.org/pdf/2311.07594.pdf 本综述论文探讨了模态大型语言模型 (MLLMs),它将GPT-4等大型语言模型与文本和视觉等模态数据进行整合。 本研究将MLLMs中现有的模态对齐方法分为四组进行调查:(1)模态转换器,将数据转换为LLMs可以理解的形式;(2)模态感知器,改进LLMs感知不同类型数据的能力;(3)工具辅助,将数据转换为一种常见格式 这个领域仍处于探索和实验阶段,组织和更新各种现有的模态信息对齐研究方法。

    79910编辑于 2023-11-17
  • 来自专栏算法进阶

    模态语言模型研究进展!

    1 介绍 模态大型语言模型(MM-LLMs)在过去一年取得了显著进步,通过优化模态对齐和与人类意图对齐,增强了现成的单模态基础模型(LLMs)以支持各种MM任务。 图2 MM-LLMs的一般模型架构以及每个组件的实现选择。 2.1 模态编码器 模态编码器(ME)将来自不同模态的输入IX编码为相应的特征FX。 Q-Former从FX中提取特征作为提示PX,P-Former生成“参考提示”进行对齐约束,MQ-Former进行尺度信号对齐。但这些方法都需要额外的PT过程初始化。 当前作品采用隐扩散模型(LDMs),如图像合成使用稳定扩散,视频合成使用零目镜,音频合成使用AudioLDM-2。输出投影器将特征HX作为条件输入,用于MM内容生成过程中的噪声消除。 PaLM-E和EmbodiedGPT是该领域的典型工作,前者通过训练MM-LLM引入身体代理,处理通用VL任务,后者提出经济高效的CoT方法,增强实体代理与现实世界的互动能力。

    80710编辑于 2024-07-22
  • 来自专栏啄木鸟软件测试

    模态模型技术原理与实战(4)

    模态模型核心技术 1模态的困难 困难 数据集标志困难 人工标注生成 COCO Visual Genome ... 数据表征 模态转换 2文本多模态技术 图像生成文本方法 基于模板的图像描述方法 支持向量机(SVM) 3种元索 物体 动作 场景 基于检索的图像描述方法 搜寻相似之处 基于深度学习的图像描述方法 组成:3层降采样块和3层条件上采样块 微软的 Natural Speech 2:结合了扩散模型的概念,通过使用神经语音编将语音波形转换为连续向量,然后使用解码器重建语音波形 5 视频模态技术 挑战 7 模态模型高效的训练方法 第一类训练方法:前缀调优(Prefix Tuning)和提示调优(ProTuning) 第二类训练方法:P-Tuning和P-Tuning v2 第三类训练方法(最火 Transformer:编码器-解码器框架 编码器:衍生出了自编码模型,如BERT、RoBERT和ALBERT 解码器:衍生出了自回归模型,如GPT-1和GPT-2 整体衍生出:T5和GLM

    46010编辑于 2024-09-10
  • 来自专栏深度学习自然语言处理

    APE|全开源模态基础感知模型

    一次性检测&分割任意类别或短语!一个模型一套参数在160种测试集上取得当前SOTA或极具竞争性的结果! 这种粒度差异会给模型训练带来挑战,为此我们提出统一前景和背景的粒度,对于不同块的背景我们将其视为独立的标签,如上图中的“天空”。 这使得模型可以采用统一的架构训练前景和背景数据,也可以方便地融入SA-1B这类大规模的Class-Agnostic数据。 论文一共训练了四组模型: APE (A):基础版,基于DETA构建,并只在通常的检测和分割数据集上训练,包括COCO, LVIS, Objects365, OpenImages, and Visual 因为在inter-scenario设定下,每张图都要用422个句子去查询,之前模型总是会每句话预测一个物体,因此效果不理想,而APE会拒绝不相关的查询。

    54410编辑于 2023-12-21
  • 来自专栏啄木鸟软件测试

    模态模型技术原理与实战(2)

    oSoftMax函数:将酚类输出值转转换为[0,1]之间的概率分布,且概率和为1. 1.第一个阶段:SFT,即有监督微调 ChatGPT 使用 GPT-3.5-turbo 作为其有监督微调的底座模型。这批数据的总量不大,但是其种类丰富,包含了基于各个任务的轮对话数据。 ·可以起到加速模型收敛的作用。 GPT-3 文本生成、轮对话、机器翻译方面、智能问答具有优势。 GPT-3缺陷: ·无法保证生成的文章是否符合人类的价值观、是否有政治敏感和种族歧视的信息 ·其长距离上下文理解能力不够强 ·轮对话能力有待提高。 总结 模型被广泛应用有以下几个前提 ·效果好 ·效率高 ·成本可控 目前,模型在这几个方面还不够理想。

    54110编辑于 2024-09-10
  • 来自专栏深度学习自然语言处理

    APE|全开源模态基础感知模型

    一次性检测&分割任意类别或短语!一个模型一套参数在160种测试集上取得当前SOTA或极具竞争性的结果! 这种粒度差异会给模型训练带来挑战,为此我们提出统一前景和背景的粒度,对于不同块的背景我们将其视为独立的标签,如上图中的“天空”。 这使得模型可以采用统一的架构训练前景和背景数据,也可以方便地融入SA-1B这类大规模的Class-Agnostic数据。 论文一共训练了四组模型: APE (A):基础版,基于DETA构建,并只在通常的检测和分割数据集上训练,包括COCO, LVIS, Objects365, OpenImages, and Visual 因为在inter-scenario设定下,每张图都要用422个句子去查询,之前模型总是会每句话预测一个物体,因此效果不理想,而APE会拒绝不相关的查询。

    54210编辑于 2023-12-21
  • 来自专栏啄木鸟软件测试

    模态模型技术原理及实战(6)

    中小型公司模型构建之路 如何选择 自己建立 二次开发 重新训练,消耗非常巨大 现有的模型体系已经非常丰富 对话模型已经白热化 •三天产生一个小应用 •两天产生一个新模型 中小公司的技术实力相对薄 微调 用 LoRA((Low-Rank Adaptation低秩适配) 2022年 Edward J.Hu PLM(Pre-trained Language Model 预训练语言模型) Redundancy Optimizer,ZeRO) •优化器状态分区(ZeRO-1) •梯度分区 (ZeRO-2) •参数分区(ZeRO-3) 压缩 剪枝 剪枝技术通过理结果产生重要影响,需要剔除冗余参数以提高模型训练效率 步骤 •1、训练一个原始模型,该模型具有较高的性能但运行速度较慢。 •2、确定哪些参数对输出结果的贡献较小,并将其设置为零。 •4、评估模型的大小、速度和效果等指标,如果不符合要求,那么继续进行剪枝操作直至满意为止。

    29810编辑于 2024-09-10
  • 工业视觉检测:模态模型的诱惑

    现在的问题是:模态模型出来之后,YOLO还是最优解吗?三、模态模型的诱惑:看起来很美2023年,模态模型集中爆发。 答案是清楚的:在当前的技术成熟度下,模态模型不适合作为工业视觉检测的主力方案。 六、不是替代,是互补但这不意味着模态模型在工业视觉检测领域毫无用处。关键是找到它的正确位置。 模态模型可以做什么?兜底。当YOLO的置信度处于"灰色地带"(比如0.3-0.7之间),不是很确定的时候,把这张图送给模型做二次判断。 模态模型可以做什么?把结构化的检测结果,转化成自然语言的质检报告。

    48321编辑于 2026-01-12
  • 来自专栏啄木鸟软件测试

    模态模型技术原理与实战(3)

    在阿里巴巴达摩院发布的《2023 土科技趋势》中,实现文本-图像-语音-视频“大统一”的模态预训练模型占据榜首。 ·CLIP模型:CLIP模型是OpenAI在2021 年推出的文本-图像模态预训练模型。证明了“模态预训练模型零样本推理”这种模式的可行性。 2,基于模态对齐数据训练模态模型 VideoBERT、CLIP、CoCa、CoDi。 2023年4月,威斯康星大学麦迪逊分校等机构联合发布了模态模型LLaVA。LLaVA模型在视觉问答、图像描述、物体识别、轮对话等任务中表现得极其出色。 第二个阶段,基于15 万条模态指令数据,对模态模型进行端到端的指令微调,具体针对视觉问答和模态推理任务进行模型训练。

    1.2K20编辑于 2024-09-10
  • 来自专栏算法一只狗

    Step系列模型—两款模态模型详细介绍

    目前,它无法进行模态任务的识别,因为其本质上仍是一个文本模型(LLM),核心优势集中在文本生成、逻辑推理和长上下文建模,而非跨模态融合。 如果用户希望体验 DeepSeek 级别的模型,同时拥有模态能力,可以尝试阶跃最新发布的 Step-Video 和 Step-Audio。 ,中英文可实现同声传译自然流畅的通话体验:低时延、个性化表达,使语音交互更自然3.2 技术架构 核心难点:提升语音的自然度和流畅度依赖高质量大规模语音数据进行训练 模态训练架构: 采用 端到端模态模型 Generation):结合已有音频生成目标说话人数据音频编辑 (Audio Editing):调整音频情感、风格,提高自然度3.4 结论从整体架构来看,Step-Audio 采用了 130B 规模的模态模型 4.写在最后随着 DeepSeek-R1 在文本推理方面的突破,Step-Video 和 Step-Audio 进一步扩展了模态模型的能力,使视频生成和语音交互进入了一个全新的阶段。

    87320编辑于 2025-03-22
  • 模态模型 前沿算法与实战应用

    模态模型:前沿算法原理与全流程实战应用随着人工智能从单一感知向通用认知的维度跃迁,模态模型正以前所未有的速度重塑着数字世界的图景。 然而,模态模型的兴起,彻底粉碎了这一学科壁垒。教育变革的重心正向“全模态”融合转移。未来的教育不再局限于单一信号的处理技巧,而是侧重于培养理解跨模态对齐、融合编码与联合训练的复合型人才。 单模态模型如同蒙眼听音,难以构建对真实世界的完整认知;而模态模型则让机器拥有了“眼睛”与“耳朵”,实现了感知智能向认知智能的质变。在科技维度上,前沿算法原理的突破解决了异构数据难以对齐的难题。 模态模型的普及,在人文层面具有里程碑式的意义。它打破了以文本为核心的单一交互模式,极大地降低了技术使用的门槛。 结语模态模型的崛起,是人工智能发展史上的高光时刻。它根植于教育体系的跨界融合,成长于科技架构的底层突破,升华于以人为本的交互体验,最终落实于经济价值的爆发式增长。

    38010编辑于 2026-03-23
领券