你有没有想过，一个真正智能的AI应该是什么样的？

它不应该只会聊天，还能看懂你发的照片；不应该只会识图，还能理解照片里的情绪；不应该只会看视频，还能听懂视频里的人在说什么。它应该像人一样，能同时处理多种信息——文字、图片、声音、视频，把它们融合在一起理解。

语言模型只懂文字，你给它看一张图，它只能看到一串乱码。图像模型只懂图片，你跟它说"这张图里有什么"，它听不懂你的问题。它们各自在自己的领域里很厉害，但跨出一步就寸步难行。

多模态AI要做的，就是把这些"单科状元"整合成一个"全能学霸"。它既能读文字，又能看图片，还能听声音，更重要的是，它能把所有这些信息融会贯通。

举个例子。你给它看一段视频：一只猫跳起来想抓飞过的蝴蝶，没抓着，摔了个跟头。然后你问它："猫开心吗？"

单模态的AI可能会懵：视频是视频，问题是问题，怎么连起来？但多模态AI能看懂：猫的动作是跳跃，跳跃通常代表兴奋；没抓着蝴蝶，可能有点失望；但摔跟头的姿势又有点滑稽。综合这些信息，它可能会回答："它一开始很兴奋，没抓着有点失落，但整体看起来还是在玩耍，应该是开心的状态。"

这种理解能力，已经非常接近人类了。

技术上，多模态AI的核心是"对齐"——让模型理解，文字里的"猫"和图片里的猫是同一个东西，视频里的跳跃和文字里的"跳"是同一个动作。

怎么实现这种对齐？主要有几种思路。

一种是"拼接式"。把训练好的语言模型和图像模型拼在一起，中间加一个"翻译官"，把图像模型输出的特征转成语言模型能理解的格式。这种方法快，但两个模型各自为政，融合得不够深。

另一种是"原生式"。从一开始就用图文混合的数据训练一个统一的模型。给它看图片和图片的描述，让它自己学习文字和图像之间的对应关系。这种方法效果更好，但训练难度大、成本高，需要海量的图文配对数据。

还有一种介于两者之间，叫"对齐式"。先分别训练语言模型和图像模型，然后用大量图文配对数据对它们进行"联合训练"，让两者的内部表示空间对齐。这样，当你输入"猫"这个字，图像模型里代表猫的那些特征就会被激活。

现在的GPT-4V、Gemini、Claude 3，用的都是这种思路。它们不一定有一个统一的模型结构，但通过各种方式实现了跨模态的理解能力。

多模态AI的能力，正在快速拓展。

。你发一张植物的照片，问它叶子为什么发黄，它能告诉你可能是水浇多了或者缺铁了。你发一张英文菜单，让它翻译成中文，它能准确认出每个菜名。

。你给它一段会议录像，问它"大家对方案A怎么看"，它能总结出每个人的态度和主要观点。你给它一段教学视频，问它"老师讲的重点是什么"，它能提炼出核心知识点。

。你说"找一个穿红衣服的女孩在草地上跑的视频"，它能从海量视频库里找出符合条件的片段。你拍一张鞋的照片，让它找同款的购买链接，它能从商品图库里匹配出最相似的。

。你给它一段文字描述，它能画出对应的图像。你给它一张静态照片，它能想象出照片之前和之后发生了什么，生成一段短视频。

它对"常识"的理解还很肤浅。你给它看一张照片：一个人在超市里拿着西瓜准备付钱。它能认出人、西瓜、收银台，但它不一定理解"这个人是在买东西"这个简单的场景逻辑。

它对抽象概念的处理也力不从心。你给它看一幅毕加索的画，问它表达了什么，它的回答大概率是空洞的套话，而不是真正的艺术理解。

还有"幻觉"问题。多模态AI也会胡说八道，尤其在信息不完整的时候，它可能会脑补出一些并不存在的内容。

四、为什么现在是多模态的爆发期

多模态AI的概念并不新，为什么最近突然爆发了？

。处理图像和视频需要的计算量，比处理文字大几个数量级。一张图片包含的信息量，相当于几千个字。一段视频更是海量数据的集合。只有到了GPU足够强大、成本足够低的今天，大规模训练多模态模型才成为可能。

。互联网上有海量的图文配对数据——图片新闻、带说明的产品图、加了字幕的视频、配了讲解的教程。这些天然的多模态数据，成了训练模型的绝佳素材。

。Transformer架构被证明不仅能处理文字，也能处理图像和视频。只要把图片切成小块、把视频切成帧序列，就可以用同样的注意力机制去理解它们。这让跨模态的统一模型成为可能。

。用户不满足于只是聊天，想发图片让AI帮忙看；企业不满足于只是处理文档，想分析监控视频、理解用户上传的图片。真实的应用场景，催生了多模态的爆发。

多模态AI的终极目标，是像人一样理解世界。

想象一个AR眼镜，你看到什么，它就帮你分析什么。看到一个人，它提醒你上次在哪里见过他；看到一台机器，它告诉你哪里可能出故障；看到一道菜，它告诉你热量是多少、怎么做的。

想象一个真正的智能助手，你给它看冰箱里的剩菜，问它能做什么，它告诉你还能凑出三菜一汤，并给出步骤。你给它看孩子的涂鸦，问它画的是什么，它能说出孩子的想法，甚至帮孩子把涂鸦变成完整的故事。

想象一个能看懂世界的AI老师，你给它看一段实验视频，它能解释原理、指出操作要点、回答你随时提出的问题。你给它看一段历史纪录片，它能把背景信息、人物关系、事件脉络都梳理出来。

这些想象，正在一步步变成现实。

当你下次用ChatGPT，试着发一张图片过去，看它怎么回答；当你用谷歌搜索，试试拍张照片搜同款；当你刷短视频，想想背后是不是有AI在理解内容、做推荐。

你会发现，AI正在从一个只会聊天的文字脑，变成一个能看、能听、能理解的感知脑。而多模态的崛起，正是这场进化的关键一步。

多模态AI崛起：当AI能同时看懂文字、图片和视频

产品KOL

人工智能

云计算

新闻资讯

多模态AI正在突破单模态限制，实现文字、图像、视频的融合理解。它能读懂图片内容、分析视频场景、进行跨模态搜索，应用场景涵盖AR眼镜、智能助手等领域。随着算力提升和数据积累，多模态AI正从单科专家进化为全能型智能助手。

ChatGPT

4核4G3M云服务器 新用户低至38元/年！

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云AI代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

功能1上新10个字符

功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符。

功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符。

功能5描述100个字符功能5描述100个字符功能5描述100个字符功能5描述100个字符功能5描述100个字符功能5描述100个字符

功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符

功能4上新

文章&问答评论现已支持表情

全新交互，全新视觉，新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能，全面提升创作效率和体验

社区富文本编辑器全新改版！诚邀体验～ 

精选全网热门MCP server，让你的AI更好用 🚀

💥开发者 MCP广场重磅上线！

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

多模态AI崛起：当AI能同时看懂文字、图片和视频

多模态AI崛起：当AI能同时看懂文字、图片和视频

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐