首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏机器学习与统计学

    谷歌这次确实有诚意,性能翻倍

    总体来看,Gemma-2 27B模型在其规模类别中表现最佳,甚至可以与训练时间更长的大模型进行同级别竞争。 Gemma-2 27B和9B指令微调模型在Chatbot Arena中进行了盲测评估,由人类评估员与其他SOTA模型进行对比。研究团队在图1中报告了ELO评分。

    36710编辑于 2024-07-06
  • 再见VAE!英伟达PixelDiT硬刚SD/FLUX:破局像素生成,端到端效果比肩隐空间模型

    文本嵌入 由冻结的 Gemma-2 编码器生成。遵循文献 [36],本文在用户提示前添加简洁的系统提示,然后将序列输入文本编码器。 文本到图像方面,采用 Gemma-2 作为冻结文本编码器,并在patch级路径引入 MM-DiT 融合;预训练于 512×512,随后在 1024² 继续微调,数据规模约 2600 万对,覆盖多种纵横比

    26410编辑于 2025-12-24
  • 来自专栏公共互联网反网络钓鱼(APCN)

    全球钓鱼邮件攻防态势:攻击工业化与多因素绕过常态化研究

    更值得关注的是,生成式AI模型(如LLaMA-3、Gemma-2)被集成至PhaaS平台,可依据目标企业公开信息(如官网、LinkedIn、财报)自动生成符合高管语言风格的欺诈邮件,极大提升BEC(Business

    34610编辑于 2025-12-08
  • 来自专栏DeepHub IMBA

    KV Cache管理架构演进:从连续分配到统一混合内存架构

    全注意力(Jamba、Bamba) 局部分块 + 全注意力(Llama 4) Jenga论文给出了量化数据:Llama 3.2 11B Vision如果把所有层按统一方式管理,内存浪费达79.6%;Gemma

    43911编辑于 2026-03-04
  • 来自专栏NLP/KG

    LLM大模型部署实战指南:Ollama简化流程,OpenLLM灵活部署,LocalAI本地优化,Dify赋能应用开发

    pip install openllm # or pip3 install openllm openllm hello 支持模型 Llama-3.1 Llama-3 Phi-3 Mistral Gemma

    2.9K11编辑于 2024-08-17
  • 来自专栏AIGC 先锋科技

    GUIDE:通过注意力分数优化LLMs指令对齐的简单有效方法 !

    作者的实验表明,对于Mistral和Gemma-2模型,值为2可以很好地强调指令,而值为1则可以有效地突出文本中的特定信息。此外,使用大于5的值往往会导致无意义的输出(参见附录B和F)。

    41210编辑于 2024-10-25
  • 每周AI论文速递(20240408-20240412)

    这两款模型在较少 token 的训练下,仍与 Gemma-2 Ferret-v2: An Improved Baseline for Referring and Grounding with Large

    18010编辑于 2025-04-08
  • 来自专栏AIGC 先锋科技

    南洋理工提出简单如精细理念,通过双向负反馈损失进行LLM定位 !

    DPO在Meta-Llama-3上表现最好,SimPO在Mistral-7B上表现最好,而作者提出的BNF在Gemma-2上表现出色。

    38310编辑于 2025-01-01
领券