这使得Gemma-3成为当前性能卓越且参数规模较小的大模型之一。 通过这种设计,Gemma-3有效地平衡了处理长文本时的内存效率与模型性能。 Gemma-3模型在长上下文支持方面进行了显著优化,将上下文长度扩展至128K token(10亿参数版本为32K)。 这些技术改进使Gemma-3在长上下文和多模态场景下展现出更强的竞争力。 Gemma-3在图像处理方面引入了一系列创新技术,旨在降低推理成本并提升性能。 这一技术使Gemma-3在处理复杂图像场景时表现更加出色,进一步提升了其在实际应用中的实用性。 高效训练过程 在预训练阶段,Gemma-3在继承Gemma 2方法的基础上进行了多项改进。 这一系列优化措施使Gemma-3在多种任务场景下表现出色。
相关链接官方介绍:https://blog.google/technology/developers/gemma-3模型下载:https://huggingface.co/collections/google
该研究在 Llama-3.1、Qwen-2.5 和 Gemma-3 等最新模型上进行了实验:DFloat11 能在保持比特级(bit-for-bit)精确输出的同时,将模型体积缩减约 30%。
训练与后训练: Gemma-3 使用 TPU 进行训练,并结合 Zero-3 类算法与 JAX。
闭源多模态模型(如GPT-4o、GPT-4.1、Claude、Gemini系列)、闭源推理模型(如o4-mini、GPT-5、Claude-3.7-thinking、Gemini-2.5-pro)、开源VLM(如Gemma
开源模型如Llama-3.2 Vision Instruct、InternVL2.5与InternVL3、Qwen3与Qwen2.5-VL、Gemma-3及Ovis2,覆盖7B至90B参数量级,为研究提供可深入分析架构设计与缩放效应的替代方案