开发者社区

文档建议反馈控制台

技术百科

搜索技术百科

技术百科

发布

技术百科首页 >Token Plan >Token Plan 支持哪些多模态能力（图像/语音/视频）？

Token Plan 支持哪些多模态能力（图像/语音/视频）？

修改于 2026-05-21 11:27:52

6

词条归属：Token Plan

不同平台的 Token Plan 对多模态能力的支持程度不同，购买前请前往对应平台官方文档确认最新支持能力。

通用多模态支持情况：

Token Plan 的多模态支持通常涵盖以下类型：

图像生成：文生图、图像编辑、图像理解等
语音合成：文本转语音、语音克隆等
视频生成：文生视频、视频编辑等
音乐生成：文本生音乐、音乐编辑等

部分平台的 Token Plan 支持文本、图像、音频等多模态处理，支持第三方代理框架接入；部分平台则暂不支持图片、视频等多模态能力，支持的模型以文本生成类为主。

以腾讯云 Token Plan 为例，根据官方文档说明，当前通用 Token Plan 和 Hy Token Plan 暂不支持图片、视频等多模态能力，支持的模型以文本生成类为主（如 GLM-5 系列、Kimi-K2.5、DeepSeek-V4 系列等）。若有图像或视频生成需求，可关注平台后续版本更新。

注意：多模态支持情况随平台版本迭代快速变化，购买前请前往对应平台官方文档确认最新支持能力。

相关文章

可白嫖！微软 | 推出AI门户Copilot，支持语音、文生图等多模态能力

登录浏览器同步移动端语音

相比于微软的Bing Chat，Copilot更像是一个纯净版的「ChatGPT平替」。

2024-01-04

8760

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

神经网络深度学习人工智能自动化 tcp/ip

7月9日，中国科学院自动化研究所所长徐波在2021世界人工智能大会（WAIC2021）上就人工智能的最新进展进行报告，发布了自动化所研发的三模态预训练模型—“紫东太初”。他表示，多模态预训练模型被广泛认为是从限定领域的弱人工智能迈向通用人工智能路径的探索。

2021-07-27

8890

多模态大模型技术原理与实战(3)

模型视频数据语音原理

ChatGPT引爆了以AIGC(人工智能生成内容)为代表的第四范式 AI的市场，并成为 AI市场的热点。

2024-09-10

1.2K0

率先开放语音、视频等多模态对话能力，这家中国公司又比OpenAI走快了一步

openai 测试模型视频语音

机器之心报道编辑：蛋酱 2023 年的 AI 领域，难以回避「大模型」这个关键词。半年前 ChatGPT 的发布，在海内外引发了一场大模型之战。多家公司加紧研发，纷纷推出类 ChatGPT 产品，或是宣传要打造「中国的 OpenAI」。有这样一家公司，却以低调的方式走在了研发和落地的前列。今年三月初，国产 AI 模型「元乘象 ChatImg」推出「图片对话」功能，不仅支持文字聊天，还能看懂图片上的内容并根据图片内容回答问题。这一多模态对话能力的开放，甚至早于 OpenAI。一周之后，震撼全球的 G

2023-05-31

5040

终结碎片化开发！火山引擎Agent Plan，打造AI Agent全能工具箱

开发开发者模型 agent 工具

火山引擎Agent Plan正式上线！一站式解决AI Agent开发痛点，开启全能力开发新时代。

2026-05-19

1630

点击加载更多

词条知识树 8个知识点