
本文仅用于技术分享和学习交流,内容不包含任何广告、推广、引流、付费课程或外链信息,即便出现链接地址也均为相关产品的官网地址(来自于网络公开资料)所有示例和配置均为技术实践,仅供参考。
本文档简要介绍了 ModelScope 平台提供的部分 AI 模型,以及如何根据你的显卡配置选择合适的模型,帮助你快速找到适合自己硬件条件的 AI 模型。
本文所列模型参数及显卡配置信息整理自网络公开资料,实际运行情况可能因硬件环境有所差异,仅供参考。
本文档旨在帮助你:
现在,让我们开始探索 ModelScope 的精彩世界吧!
说明: 本章节介绍 ModelScope 平台提供的各类 AI 模型任务,帮助你了解不同类型模型的功能和应用场景。
任务 | 说明 | 应用场景 |
|---|---|---|
文本生成 | 根据输入生成新文本 | 写作助手、聊天机器人、代码生成 |
文本生成图片 | 根据文字描述生成图像 | AI 绘画、广告设计、创意生成 |
文本生成视频 | 根据文字描述生成视频 | 短视频创作、动画生成 |
视觉多模态理解 | 同时理解图像和文本信息 | 图文内容分析、智能助手 |
语音合成 | 将文字转换为语音 | 语音助手、有声书、导航播报 |
统一多模态 | 统一处理多种模态的通用模型 | 通用 AI 助手、多任务处理 |
任务 | 说明 | 应用场景 |
|---|---|---|
视觉多模态理解 | 同时理解图像和文本信息 | 图文内容分析、智能助手 |
文本生成图片 | 根据文字描述生成图像 | AI 绘画、广告设计、创意生成 |
图像描述 | 为图像生成文字描述 | 无障碍辅助、图片标注 |
文本生成视频 | 根据文字描述生成视频 | 短视频创作、动画生成 |
视频描述 | 为视频内容生成文字描述 | 视频摘要、字幕生成 |
视觉定位 | 根据文字描述定位图像区域 | 目标查找、交互式标注 |
多模态表征 | 将多种模态数据映射到统一向量空间 | 跨模态检索、特征融合 |
视觉问答 | 根据图像内容回答问题 | 智能客服、教育辅助 |
视频问答 | 根据视频内容回答问题 | 视频理解、智能分析 |
图文检索 | 通过文字搜索图片或通过图片搜索文字 | 图库搜索、电商找图 |
视觉蕴含 | 判断图像与文本之间的逻辑关系 | 内容审核、事实核查 |
生成式多模态表征 | 生成式方式获取多模态表征 | 内容生成、特征学习 |
多模态相似度 | 计算不同模态数据之间的相似度 | 图文匹配、推荐系统 |
文档理解 | 理解文档中的文字、表格、图表等 | 发票识别、合同解析 |
视频时序定位 | 根据文字描述定位视频中的时间片段 | 视频剪辑、精彩回放 |
生成模型调优 | 对生成模型进行微调优化 | 模型定制、效果提升 |
多模态对话 | 支持图文混合输入的对话系统 | 智能助手、客服机器人 |
图片生成视频 | 根据静态图片生成动态视频 | 图片动画化、视频特效 |
统一多模态 | 统一处理多种模态的通用模型 | 通用 AI 助手、多任务处理 |
图片生成图片 | 根据输入图片生成新图片 | 图像编辑、风格转换 |
具身智能 | 让 AI 具备感知和操控物理世界的能力 | 机器人控制、自动驾驶 |
任务 | 说明 | 应用场景 |
|---|---|---|
文本生成 | 根据输入生成新文本 | 写作助手、聊天机器人、代码生成 |
文本分类 | 将文本分到预定义类别 | 垃圾邮件识别、新闻分类 |
分词 | 将句子切分成词语 | 中文处理基础、搜索引擎 |
命名实体识别 | 识别人名、地名、机构名等 | 信息抽取、知识图谱构建 |
翻译 | 一种语言转换为另一种语言 | 中英翻译、多语言翻译 |
文本摘要 | 长文本压缩成简短摘要 | 新闻摘要、论文摘要 |
句子相似度 | 计算两个句子的相似程度 | 重复问题检测、文本去重 |
预训练 | 在大规模数据上预训练的基础模型 | BERT、GPT 等基座模型,下游微调 |
自然语言推理 | 判断两个句子的逻辑关系 | 蕴含/矛盾/中立判断 |
文本纠错 | 检测并修正文本中的错误 | 拼写检查、语法纠正 |
文本向量 | 将文本转换为数值向量 | 语义搜索、相似度计算 |
特征抽取 | 从文本中提取关键特征 | 关键词提取、主题分析 |
情感分析 | 判断文本的情感倾向 | 评论分析、舆情监控 |
关系抽取 | 识别实体之间的关系 | 知识图谱、信息抽取 |
零样本分类 | 无需训练样本直接分类 | 灵活分类未见过的类别 |
表格问答 | 基于表格数据回答问题 | 数据查询、报表分析 |
问答 | 根据问题返回答案 | 智能客服、知识问答 |
词性标注 | 标注每个词的词性 | 语法分析、语言研究 |
实体分类 | 对识别出的实体进行分类 | 实体类型判断、知识库 |
序列标注 | 对序列中每个元素标注 | NER、分词的底层任务 |
任务型对话 | 完成特定任务的对话系统 | 订机票、查天气、预约 |
任务 | 说明 | 应用场景 |
|---|---|---|
语音识别 | 将语音转换为文字 | 语音输入、会议记录、字幕生成 |
语音合成 | 将文字转换为语音 | 语音助手、有声书、导航播报 |
语音唤醒 | 检测特定唤醒词激活系统 | 智能音箱、车载语音 |
语音降噪 | 去除语音中的背景噪声 | 通话增强、录音处理 |
回声消除 | 消除通话中的回声 | 视频会议、电话系统 |
语音分离 | 分离混合语音中的不同说话人 | 多人会议、语音增强 |
音频分类 | 对音频内容进行分类 | 音乐分类、环境声识别 |
音频生成 | 生成音频内容 | 音乐创作、音效生成 |
说话人确认 | 验证说话人身份 | 声纹解锁、身份认证 |
说话人日志 | 记录谁在什么时候说话 | 会议记录、多人对话分析 |
标点预测 | 为语音识别结果添加标点 | 语音转写、字幕优化 |
时间戳预测 | 预测语音中每个词的时间位置 | 字幕对齐、语音编辑 |
语音端点检测 | 检测语音的开始和结束 | 语音交互、录音分段 |
困惑度计算 | 评估语言模型的预测能力 | 模型评估、语音识别优化 |
语音语种识别 | 识别语音所使用的语言 | 多语言系统、语种切换 |
音频量化编码 | 将音频压缩编码 | 音频压缩、传输优化 |
音视频语音识别 | 结合视频信息进行语音识别 | 视频字幕、唇语辅助 |
情绪识别 | 从语音中识别说话人情绪 | 客服分析、心理评估 |
逆文本正则化 | 将口语化文本转为书面形式 | 语音转写后处理 |
任务 | 说明 | 应用场景 |
|---|---|---|
视觉检测跟踪 | 检测并跟踪图像/视频中的目标 | 安防监控、自动驾驶 |
光学字符识别 | 识别图像中的文字 | 证件识别、文档数字化 |
人脸人体 | 人脸检测、识别、人体姿态估计 | 人脸解锁、动作捕捉 |
视觉分类 | 对图像进行分类 | 图片分类、场景识别 |
视觉编辑 | 编辑修改图像内容 | 图像修复、美颜滤镜 |
视觉分割 | 将图像分割成不同区域 | 抠图、医学影像分析 |
视觉生成 | 生成新的图像内容 | AI 绘画、图像合成 |
视觉表征 | 将图像映射为特征向量 | 图像检索、相似图搜索 |
视觉评价 | 评估图像质量 | 图像质量评分、增强效果评估 |
底层视觉 | 图像增强、去噪、超分辨率等 | 老照片修复、画质提升 |
三维视觉 | 三维重建、深度估计等 | AR/VR、三维建模 |
基础模型应用 | 视觉基础模型的应用 | 通用视觉任务、迁移学习 |
任务 | 说明 | 应用场景 |
|---|---|---|
蛋白质结构生成 | 预测或生成蛋白质三维结构 | 药物研发、生物研究 |
蛋白质功能预测 | 预测蛋白质的生物学功能 | 基因工程、疾病研究 |
说明: 本章节介绍如何根据模型参数量估算显存需求,帮助你判断自己的显卡是否能运行某个模型。
FP16 半精度模式(推荐):
需要显存 ≈ 模型参数量(B) × 2 GB示例:
模型 | 计算公式 | 需要显存 |
|---|---|---|
Qwen3-4B | 4B × 2 | 8GB |
Llama3-8B | 8B × 2 | 16GB |
Qwen2.5-14B | 14B × 2 | 28GB |
Llama3-70B | 70B × 2 | 140GB |
注意: 70B 以上的模型通常需要多卡或使用量化技术。
INT8 量化模式:
需要显存 ≈ 模型参数量(B) × 1 GB示例:
模型 | 计算公式 | 需要显存 |
|---|---|---|
Qwen3-4B (INT8) | 4B × 1 | 4GB |
Llama3-8B (INT8) | 8B × 1 | 8GB |
INT4 量化模式:
需要显存 ≈ 模型参数量(B) × 0.5 GB示例:
模型 | 计算公式 | 需要显存 |
|---|---|---|
Qwen3-4B (INT4) | 4B × 0.5 | 2GB |
Llama3-8B (INT4) | 8B × 0.5 | 4GB |
固定显存需求:
模型 | 显存需求 |
|---|---|
SD 1.5 | 约 4-6GB |
SDXL | 约 8-12GB(启用优化后可降至 6-8GB) |
Flux | 约 16-20GB |
固定显存需求:
模型 | 显存需求 |
|---|---|
CogVideoX-2B | 约 8-12GB(启用优化后) |
CogVideoX-5B | 约 14-18GB |
Hunyuan Video | 约 20-24GB |
根据你的显存大小,可以快速判断能运行的模型:
你的显存 | 能跑的 LLM 参数(FP16) | 能跑的 LLM 参数(INT8) | 能跑的图像模型 | 能跑的视频模型 |
|---|---|---|---|---|
6GB | 3B 以下 | 6B 以下 | SD 1.5 | 无法运行 |
8GB | 4B | 7B | SD 1.5 | 无法运行 |
12GB | 4-6B | 12B | SDXL(优化) | CogVideoX-2B(优化) |
16GB | 7-8B | 14-16B | SDXL | CogVideoX-5B |
24GB | 12B | 24B | SDXL / Flux | CogVideoX-5B |
40GB+ | 20B | 40B | 任何模型 | 任何模型 |
想要运行某个模型?快速计算需要多少显存:
示例:
目标模型 | 计算公式 | 最低显存需求 |
|---|---|---|
Qwen2.5-14B (FP16) | 14 × 2 + 2 | 30GB |
Qwen2.5-14B (INT8) | 14 × 1 + 2 | 16GB |
说明: 本章节提供常见显卡与推荐模型参数的对照表,帮助你快速找到适合自己显卡的模型。
显卡型号 | 显存大小 | 推荐模型参数 | 典型模型示例 | 说明 |
|---|---|---|---|---|
GTX 1660 Ti | 6GB | 1B-3B | Qwen2.5-1.5B, Phi-2 (2.7B) | 仅支持小模型,体验受限 |
RTX 3060 | 12GB | 3B-7B | Qwen3-4B, Llama3-8B, ChatGLM3-6B | 入门级 AI 学习,日常对话够用 |
RTX 3080 | 10GB | 7B-13B | Llama3-8B, Qwen2.5-14B(需优化) | 中端选择,性能较好 |
RTX 4060 Ti | 16GB | 7B-14B | Qwen2.5-14B, Llama3-13B | 性价比之选,适合个人开发 |
RTX 4080 | 16GB | 14B-32B(需优化) | Qwen2.5-32B(量化), Yi-34B | 高端个人用户,专业开发 |
RTX 4090 | 24GB | 32B-70B(需量化) | Llama3-70B(量化),Qwen2.5-72B | 发烧友级别,接近专业水平 |
A100 (40GB) | 40GB | 70B+ | Llama3-70B, GPT-3 规模模型 | 专业训练和推理 |
A100 (80GB) | 80GB | 100B+ | Llama3-405B(需多卡),超大模型 | 企业级应用,科研用途 |
重要提示:
device_map="auto"、CPU offload 等可以突破显存限制显卡型号 | 显存大小 | 推荐模型 | 生成分辨率 | 说明 |
|---|---|---|---|---|
GTX 1660 Ti | 6GB | SD 1.5 | 512×512 | 仅支持基础模型 |
RTX 3060 | 12GB | SD 1.5, SDXL(需优化) | 512×512, 1024×1024 | 可运行 SDXL,需显存优化 |
RTX 4060 Ti | 16GB | SDXL, SD 1.5 | 1024×1024 | 流畅运行 SDXL |
RTX 4080 | 16GB | SDXL, Flux(实验性) | 1024×1024 | 高端图像生成 |
RTX 4090 | 24GB | SDXL, Flux, SD3 | 2048×2048 | 顶级图像生成,支持超大分辨率 |
生成速度参考(SDXL,25 步推理):
显卡型号 | 生成速度 |
|---|---|
RTX 3060 12GB | ~20-30 秒/张 |
RTX 4060 Ti 16GB | ~10-15 秒/张 |
RTX 4090 24GB | ~5-8 秒/张 |
显卡型号 | 显存大小 | 推荐模型 | 生成时长 | 说明 |
|---|---|---|---|---|
RTX 3060 | 12GB | CogVideoX-2B(需优化) | 2-6 秒 | 勉强能跑,需启用全部优化 |
RTX 4060 Ti | 16GB | CogVideoX-5B | 6-10 秒 | 入门视频生成 |
RTX 4080 | 16GB | CogVideoX-5B, Hunyuan-Video-Lite | 10-15 秒 | 较好的视频生成体验 |
RTX 4090 | 24GB | CogVideoX-5B, Hunyuan-Video | 15-30 秒 | 专业视频生成,质量更高 |
A100 40GB | 40GB | Hunyuan-Video, OpenSora | 30-60 秒 | 企业级长视频生成 |
生成速度参考(CogVideoX-2B,49 帧 6 秒视频):
显卡型号 | 生成速度 |
|---|---|
RTX 3060 12GB | ~6-10 分钟 |
RTX 4060 Ti 16GB | ~4-6 分钟 |
RTX 4090 24GB | ~2-3 分钟 |
说明: 在选择模型之前,首先需要了解你的显卡配置。以下是几种常用方法。
方法一:使用任务管理器(推荐)
Ctrl + Shift + Esc 打开任务管理器方法二:使用命令行
打开命令提示符(CMD),输入:
nvidia-smi输出示例:
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 528.02 Driver Version: 528.02 CUDA Version: 12.8 |
|-------------------------------+----------------------+----------------------+
| GPU Name TCC/WDDM | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 NVIDIA GeForce ... WDDM | 00000000:01:00.0 On | N/A |
| 30% 45C P8 15W / 170W | 1024MiB / 12288MiB | 2% Default |
+-------------------------------+----------------------+----------------------+关键信息解读:
字段 | 示例值 | 含义 |
|---|---|---|
GPU Name | NVIDIA GeForce RTX 3060 | 显卡型号 |
Memory-Usage | 1024MiB / 12288MiB | 已用显存 / 总显存 |
CUDA Version | 12.8 | 支持的 CUDA 版本 |
如果提示「不是内部或外部命令」,说明 NVIDIA 驱动未安装,请到 NVIDIA 官网下载安装驱动。
恭喜!到这里你已经全面了解了 ModelScope 平台的模型分类和选择方法。
我们从多个维度进行了详细介绍:
完成本文档的阅读后,一般来说将能够:
✅ 了解 AI 模型分类:掌握 ModelScope 平台提供的各类 AI 任务和应用场景
✅ 计算显存需求:根据模型参数量快速估算所需显存大小
✅ 选择合适的模型:根据自己的显卡配置选择能够流畅运行的模型
✅ 查看硬件信息:使用系统工具查看显卡型号和显存大小
✅ 理解优化技术:了解量化、CPU offload 等显存优化技术的作用
根据不同的硬件配置,推荐的应用方向如下:
显存配置 | 推荐应用方向 |
|---|---|
6-8GB | AI 入门学习、小模型体验、SD 1.5 图像生成 |
12GB | 日常 AI 对话、SDXL 图像生成、CogVideoX-2B 视频生成 |
16GB | 专业开发、中等规模 LLM、流畅的图像和视频生成 |
24GB+ | 高端应用、大规模模型推理、高质量视频生成 |
如果想进一步实践,可以尝试:
希望这篇指南能帮助你快速找到适合自己的 AI 模型!如果遇到问题,欢迎反馈和交流。
祝你在 AI 探索之旅中收获满满!
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。