全新大模型开源，腾讯（int4能打DeepSeek） Vs 谷歌（2GB运行多模态）

Ai学习的老章

发布于 2025-06-30 08:37:33

7810

文章被收录于专栏：机器学习与统计学机器学习与统计学

大家好，我是 Ai 学习的老章

最近除了阿里 Qwen3 模型更新了图片生成和处理能力，大家都可以玩转吉卜力风格

还有几个最近发布的大模型值得关注

1 是腾讯开源了 80B 混元 A13B 模型，亮点是精度无损的 int4 很能打
2 是谷歌开源的小参数 Gemma 3n 多模态大模型，亮点是可以在手机端运行
3 是我刚刚发现的一个小参数超长上下文大模型 Jan-nano-128k，亮点是只有 2.5GB 的Q4_K_M版即可拥有 128K 超长上下文

腾讯混元 A13B

官方技术博客介绍的足够详细了，感兴趣大家可以细看[1]

试用地址：https://hunyuan.tencent.com/?model=hunyuan-a13b

核心特性与优势

小参数量，高性能：仅激活 130 亿参数（总参数量 800 亿），即可在多样化基准任务中媲美更大规模模型的竞争力表现
混合推理支持：同时支持快思考和慢思考两种模式，支持用户灵活选择，模型的默认输出是慢思考模式，若想让模型进行快思考，可在 query 前附加上 "/no_think"
超长上下文理解：原生支持 256K 上下文窗口，在长文本任务中保持稳定性能
增强 Agent 能力：优化 Agent 能力，在 BFCL-v3、τ-Bench、C3-Bench 等智能体基准测试中领先
高效推理：采用分组查询注意力（GQA）策略，支持多量化格式，实现高效推理

我是看的 modelscope 上的中文总结版技术博客[2]，感觉有几个方面值得关注

1 是腾讯开源了两个新数据集：ArtifactsBench 旨在弥合代码评估中的视觉与交互鸿沟[3]，而 C3-Bench 则是专为智能体设计的评估数据集，用于揭示模型弱点并推动性能可解释性研究[4]

2 是 A13B 在数学、科学、agent 等领域可以和OpenAI-o1-1217、DeepSeek R1、Qwen3-A22B掰手腕。Agent

3是Hunyuan-A13B-Instruct-GPTQ-Int4 量化模型与 Instruct 差别极小，几乎是精度无损！

Bench	Hunyuan-A13B-Instruct	Hunyuan-A13B-Instruct-GPTQ-Int4
OlympiadBench	82.7	84.0
AIME 2024	87.3	86.7
Gsm8k	94.39	94.24
BBH	89.1	87.91
DROP	91.1	91.05

这样的话，本地部署，完全可以直接使用 int4 版本了

完整版本模型文件 160GB，int 只有不到 44GB，我感觉 4 张 4090 就可以跑起来了

https://modelscope.cn/models/Tencent-Hunyuan/Hunyuan-A13B-Instruct-GPTQ-Int4/

int4 版部署

# 下载模型：
# ModelScope: 
modelscope download --model Tencent-Hunyuan/Hunyuan-A13B-Instruct-GPTQ-Int4

# 拉取
国内：
docker pull docker.cnb.cool/tencent/hunyuan/hunyuan-a13b:hunyuan-moe-A13B-vllm 

# 使用modelscope下载的模型起服务
docker run  --privileged --user root  --net=host --ipc=host \
        -v ~/.cache/modelscope:/root/.cache/modelscope \
        --gpus=all -it --entrypoint python   docker.cnb.cool/tencent/hunyuan/hunyuan-a13b:hunyuan-moe-A13B-vllm \
         -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --tensor-parallel-size 4 \
         --port 8000 --model /root/.cache/modelscope/hub/models/Tencent-Hunyuan/Hunyuan-A13B-Instruct-GPTQ-Int4/ --trust_remote_code

DeepSeek-R1 运行成本还是太高了，44GB 的Hunyuan-A13B-Instruct-GPTQ-Int4在数学、推理、Agent 方面值得深入测试一下。

谷歌 Gemma 3n

谷歌 Gemma 又填新成员，往端侧运行发展的小模型 -3n

多模态原生设计：Gemma 3n 天然支持图像、音频、视频和文本输入，并输出文本结果。
为端侧优化而生：Gemma 3n 以效率为核心设计理念，提供 E2B 和 E4B 两种有效参数规模的版本。虽然原始参数分别为 50 亿和 80 亿，但架构创新使其运行时内存占用仅相当于传统的 20 亿和 40 亿参数模型，最低仅需 2GB（E2B）和 3GB（E4B）内存即可运行。
突破性架构：Gemma 3n 的核心创新包括 MatFormer 架构（实现计算灵活性）、逐层嵌入技术 PLE（提升内存效率）、LAuReL 与 AltUp（优化架构效率），以及专为端侧场景优化的新型音频编码器和基于 MobileNet-v5 的视觉编码器。
卓越性能：Gemma 3n 在多语言支持（覆盖 140 种文本语言和 35 种多模态语言理解）、数学运算、代码生成及逻辑推理方面实现全面升级。其 E4B 版本 LMArena 得分突破 1300 分，成为首个参数量低于 100 亿却达到该基准的模型。

只值得期待的就是：如此之低的成本即可拥有端侧运行的多模态大模型

我看外面网友的实测，Gemma 3n 的语音转文字与翻译功能是不错的。

不过这个模最该关注的还是其在端侧运行的情况

谷歌已经将这些模型上架安卓端的 Edge Gallery 应用，考虑到该应用支持 GPU 卸载功能，这应该是最佳使用方式。

但是有网友测试在高通骁龙 6 代 4 处理器（仅 CPU）上每秒生成 4-5 个 token，太慢了，几乎不可用。

目前还是保持关注吧，更多资源大家自行探索：

Hugging Face https://huggingface.co/collections/google/gemma-3n-685065323f5984ef315c93f4
Unsloth https://unsloth.ai/blog/gemma-3n
HF 博客 https://huggingface.co/blog/gemma3n
LMStudio https://lmstudio.ai/models/google/gemma-3n-e4b
Ollama https://ollama.com/library/gemma3n
AI Studio http://ai.dev
Kaggle https://www.kaggle.com/models/google/gemma-3n
MLX https://huggingface.co/collections/mlx-community/gemma-3n-685d6c8d02d7486c7e77a7dc
ONNX/transformers.js https://huggingface.co/onnx-community/gemma-3n-E2B-it-ONNX
Vertex https://console.cloud.google.com/vertex-ai/publishers/google/model-garden/gemma3n
GGUF 模型发布地址 https://huggingface.co/collections/ggml-org/gemma-3n-685d6fc0843071be9e77b6f7

Jan-nano-128k

这个就比较小众了，稍微有点名气是 Jan

Jan 是一款可完全离线运行在桌面端且即将支持移动端的类 ChatGPT 工具，旨在让任何人，无论是否具备编程技能，都能在充分掌控和保障隐私的前提下下载和使用 AI 模型。

这个ChatBot还是不错的，支持本地、API 接入大模型 ![https://jan.ai/download

还支持 MCP 和自定义助手指令

Connect Remote APIs

Jan-Nano-128k 是 Menlo Research 推出的增强版紧凑型语言模型，专为研究应用设计。它的主要特点和优势包括：

原生128k上下文窗口：可高效处理长达 128k tokens 的文本，如完整论文、长文档和复杂多轮对话，且不会像传统扩展方法那样性能下降。
性能提升：在长上下文任务中表现优于前代模型，适合深度文档分析、多文档综合和复杂推理。
兼容性：完全兼容 Model Context Protocol (MCP) 服务器，便于集成到现有研究工作流。
推荐采样参数：Temperature 0.7，Top-p 0.8，Top-k 20，Min-p 0.0。
模型架构：基于 Qwen3 架构，参数量为 4.02B，支持多种量化格式（3-bit 到 8-bit），适配不同硬件需求。

Jan-Nano-128k 已通过基于 MCP 的方法在 SimpleQA 基准测试中完成严格评估，其表现显著优于前代模型：

部署：

# 使用 VLLM 进行部署：
vllm serve Menlo/Jan-nano-128k \
    --host 0.0.0.0 \
    --port 1234 \
    --enable-auto-tool-choice \
    --tool-call-parser hermes \
    --rope-scaling '{"rope_type":"yarn","factor":3.2,"original_max_position_embeddings":40960}' --max-model-len 131072

本地运行成本极低，完整版本模型文件也就 8GB 左右