首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏福大大架构师每日一题

    谷歌最新开源的Gemini-3处理器与DeepSeek媲美,同时算力降低十倍。

    这使得Gemma-3成为当前性能卓越且参数规模较小的大模型之一。 通过这种设计,Gemma-3有效地平衡了处理长文本时的内存效率与模型性能。 Gemma-3模型在长上下文支持方面进行了显著优化,将上下文长度扩展至128K token(10亿参数版本为32K)。 这些技术改进使Gemma-3在长上下文和多模态场景下展现出更强的竞争力。 Gemma-3在图像处理方面引入了一系列创新技术,旨在降低推理成本并提升性能。 这一技术使Gemma-3在处理复杂图像场景时表现更加出色,进一步提升了其在实际应用中的实用性。 高效训练过程 在预训练阶段,Gemma-3在继承Gemma 2方法的基础上进行了多项改进。 这一系列优化措施使Gemma-3在多种任务场景下表现出色。

    1.9K10编辑于 2025-03-14
  • Google 发布最新开源模型 Gemma 3 性能超越DeepSeek-V3 为全球第二强开源模型

    相关链接官方介绍:https://blog.google/technology/developers/gemma-3模型下载:https://huggingface.co/collections/google

    1.6K30编辑于 2025-03-13
  • 来自专栏机器之心

    模型压缩到70%,还能保持100%准确率,无损压缩框架DFloat11来了

    该研究在 Llama-3.1、Qwen-2.5 和 Gemma-3 等最新模型上进行了实验:DFloat11 能在保持比特级(bit-for-bit)精确输出的同时,将模型体积缩减约 30%。

    40210编辑于 2025-04-30
  • 来自专栏自然语言处理

    Gemma 3 27B版本超越DeepSeek V3:技术要点分析!

    训练与后训练: Gemma-3 使用 TPU 进行训练,并结合 Zero-3 类算法与 JAX。

    3.1K10编辑于 2025-03-14
  • 来自专栏一点人工一点智能

    单个摄像头已过时?清华微软等发布机器人“多视角理解”新基准,戳破VLMs的3D幻觉

    闭源多模态模型(如GPT-4o、GPT-4.1、Claude、Gemini系列)、闭源推理模型(如o4-mini、GPT-5、Claude-3.7-thinking、Gemini-2.5-pro)、开源VLM(如Gemma

    22910编辑于 2025-11-26
  • 告别人工标注!首个MLLM数据流水线!中国团队重构AIGC生态:2D→3D→4D全自动生成

    开源模型如Llama-3.2 Vision Instruct、InternVL2.5与InternVL3、Qwen3与Qwen2.5-VL、Gemma-3及Ovis2,覆盖7B至90B参数量级,为研究提供可深入分析架构设计与缩放效应的替代方案

    49210编辑于 2025-08-27
领券