
大家好,我是 Ai 学习的老章
最近除了阿里 Qwen3 模型更新了图片生成和处理能力,大家都可以玩转吉卜力风格
还有几个最近发布的大模型值得关注
Gemma 3n 多模态大模型,亮点是可以在手机端运行Jan-nano-128k,亮点是只有 2.5GB 的Q4_K_M版即可拥有 128K 超长上下文官方技术博客介绍的足够详细了,感兴趣大家可以细看[1]
试用地址:https://hunyuan.tencent.com/?model=hunyuan-a13b
核心特性与优势
我是看的 modelscope 上的中文总结版技术博客[2],感觉有几个方面值得关注
1 是腾讯开源了两个新数据集:ArtifactsBench 旨在弥合代码评估中的视觉与交互鸿沟[3],而 C3-Bench 则是专为智能体设计的评估数据集,用于揭示模型弱点并推动性能可解释性研究[4]
2 是 A13B 在数学、科学、agent 等领域可以和OpenAI-o1-1217、DeepSeek R1、Qwen3-A22B掰手腕。Agent
3是Hunyuan-A13B-Instruct-GPTQ-Int4 量化模型与 Instruct 差别极小,几乎是精度无损!
Bench | Hunyuan-A13B-Instruct | Hunyuan-A13B-Instruct-GPTQ-Int4 |
|---|---|---|
OlympiadBench | 82.7 | 84.0 |
AIME 2024 | 87.3 | 86.7 |
Gsm8k | 94.39 | 94.24 |
BBH | 89.1 | 87.91 |
DROP | 91.1 | 91.05 |
这样的话,本地部署,完全可以直接使用 int4 版本了
完整版本模型文件 160GB,int 只有不到 44GB,我感觉 4 张 4090 就可以跑起来了
https://modelscope.cn/models/Tencent-Hunyuan/Hunyuan-A13B-Instruct-GPTQ-Int4/
int4 版部署
# 下载模型:
# ModelScope:
modelscope download --model Tencent-Hunyuan/Hunyuan-A13B-Instruct-GPTQ-Int4
# 拉取
国内:
docker pull docker.cnb.cool/tencent/hunyuan/hunyuan-a13b:hunyuan-moe-A13B-vllm
# 使用modelscope下载的模型起服务
docker run --privileged --user root --net=host --ipc=host \
-v ~/.cache/modelscope:/root/.cache/modelscope \
--gpus=all -it --entrypoint python docker.cnb.cool/tencent/hunyuan/hunyuan-a13b:hunyuan-moe-A13B-vllm \
-m vllm.entrypoints.openai.api_server --host 0.0.0.0 --tensor-parallel-size 4 \
--port 8000 --model /root/.cache/modelscope/hub/models/Tencent-Hunyuan/Hunyuan-A13B-Instruct-GPTQ-Int4/ --trust_remote_code
DeepSeek-R1 运行成本还是太高了,44GB 的Hunyuan-A13B-Instruct-GPTQ-Int4在数学、推理、Agent 方面值得深入测试一下。
谷歌 Gemma 又填新成员,往端侧运行发展的小模型 -3n
只值得期待的就是:如此之低的成本即可拥有端侧运行的多模态大模型
我看外面网友的实测,Gemma 3n 的语音转文字与翻译功能是不错的。
不过这个模最该关注的还是其在端侧运行的情况
谷歌已经将这些模型上架安卓端的 Edge Gallery 应用,考虑到该应用支持 GPU 卸载功能,这应该是最佳使用方式。
但是有网友测试在高通骁龙 6 代 4 处理器(仅 CPU)上每秒生成 4-5 个 token,太慢了,几乎不可用。
目前还是保持关注吧,更多资源大家自行探索:
https://huggingface.co/collections/google/gemma-3n-685065323f5984ef315c93f4https://unsloth.ai/blog/gemma-3nhttps://huggingface.co/blog/gemma3nhttps://lmstudio.ai/models/google/gemma-3n-e4bhttps://ollama.com/library/gemma3nhttp://ai.devhttps://www.kaggle.com/models/google/gemma-3nhttps://huggingface.co/collections/mlx-community/gemma-3n-685d6c8d02d7486c7e77a7dc https://huggingface.co/onnx-community/gemma-3n-E2B-it-ONNXhttps://console.cloud.google.com/vertex-ai/publishers/google/model-garden/gemma3nhttps://huggingface.co/collections/ggml-org/gemma-3n-685d6fc0843071be9e77b6f7这个就比较小众了,稍微有点名气是 Jan
Jan 是一款可完全离线运行在桌面端且即将支持移动端的类 ChatGPT 工具,旨在让任何人,无论是否具备编程技能,都能在充分掌控和保障隐私的前提下下载和使用 AI 模型。
这个ChatBot还是不错的,支持本地、API 接入大模型 ![https://jan.ai/download
还支持 MCP 和自定义助手指令
Connect Remote APIs
Jan-Nano-128k 是 Menlo Research 推出的增强版紧凑型语言模型,专为研究应用设计。它的主要特点和优势包括:
Jan-Nano-128k 已通过基于 MCP 的方法在 SimpleQA 基准测试中完成严格评估,其表现显著优于前代模型:
部署:
# 使用 VLLM 进行部署:
vllm serve Menlo/Jan-nano-128k \
--host 0.0.0.0 \
--port 1234 \
--enable-auto-tool-choice \
--tool-call-parser hermes \
--rope-scaling '{"rope_type":"yarn","factor":3.2,"original_max_position_embeddings":40960}' --max-model-len 131072
本地运行成本极低,完整版本模型文件也就 8GB 左右
https://huggingface.co/Menlo/Jan-nano-128k/tree/main
unsloth 还放出了不同量化版本,Q4_K_M版,只有 2.5GB
https://huggingface.co/unsloth/Jan-nano-128k-GGUF/tree/main
我还没有测试,感觉资源有限情况下,在需要处理超长文本、深度分析和多文档推理的研究任务中,这个模型还是值得期待一下其表现的。
参考资料
[1]
官方技术博客介绍的足够详细了,感兴趣大家可以细看: https://github.com/Tencent-Hunyuan/Hunyuan-A13B/blob/main/report/Hunyuan_A13B_Technical_Report.pdf
[2]
我是看的 modelscope 上的中文总结版技术博客: https://modelscope.cn/models/Tencent-Hunyuan/Hunyuan-A13B-Instruct/summary
[3]
ArtifactsBench 旨在弥合代码评估中的视觉与交互鸿沟: https://github.com/Tencent-Hunyuan/ArtifactsBenchmark
[4]
C3-Bench 则是专为智能体设计的评估数据集,用于揭示模型弱点并推动性能可解释性研究: https://github.com/Tencent-Hunyuan/C3-Benchmark