Meta最新发布了原生多模态大模型 Llama 4,一经亮相即登上LMSYS大模型排行榜第二名,仅次于Google的Gemini-2.5-pro,分差仅为22分,实力可见一斑。
修复 Llama4 偏移问题 Llama4 是 Meta 最新推出的开源大模型,但在 transformers 的早期支持中,存在 token 偏移(offset)问题,可能导致 位置编码计算错误,影响模型的长文本生成能力 使用 rms_norm_eps 优化 Llama4 的 L2Norm(#37418) Llama4 的 Layer Normalization 采用了 RMS Norm(Root Mean Square 兼容性说明 ✅ 完全向后兼容,不影响已有模型 ✅ 主要修复 Llama4 和 FBGemm 量化 相关 Bug 如果使用 Flash Attention 2 + Llama4,需手动禁用 FA2 未来展望 :Llama4 的进一步优化 本次更新虽然只是小版本迭代,但体现了 HuggingFace 团队对 Llama4 适配 和 量化训练优化 的持续投入。 v4.51.2 虽然是一个小版本更新,但针对 Llama4 的兼容性 和 量化训练稳定性 做了重要修复,推荐所有使用 Llama4 或 FBGemm 量化 的开发者升级!
其中,Llama4 Scout支持1000万token的超长上下文窗口,为多文档摘要、解析广泛用户活动以实现个性化任务以及推理庞大代码库等应用提供了更多可能性。 此外,Llama4系列还整合了文本、图像和视频的统一框架,使其具备原生多模态能力。 它采用了混合专家(MoE)架构,提高了训练和回答用户查询时的效率。 接下来将带你详细了解本次llama4模型的新特性。 技术背景 Llama4 是 Meta 于 今日发布的新一代开源大语言模型系列,标志着其在多模态 AI 领域的重要突破。 Llama4架构的一个关键创新是使用没有位置嵌入的交错注意层。此外,Meta采用注意力的推理时间温度缩放来增强长度泛化,并称之为iRoPE架构。 此外,Llama4架构的设计思想是通过追求无限上下文的目标来指导架构设计,特别是利用长度外推能力——在短序列上训练,泛化到极长序列。最大训练长度是256K。
随 AI 在日常生活中的广泛应用,确保领先的模型与系统开放可用,对推动个性化体验创新至关重要。支持整个 Llama 生态 的最先进模型组合。正式推出的 Llama 4 Scout 和 Llama 4 Maverick,是首批开放权重、原生多模态、支持超长上下文窗口、采用 MoE架构构建的模型。“巨兽”—— Llama 4 Behemoth,不仅是迄今最强大的模型之一,也是新一代模型的“老师”。
Meta 终于发布了一个原生多模态大模型 Llama4。而且一经发布,在大模型LMSYS排行榜上,Llama 4 Maverick冲上第二。仅仅比 Gemini-2.5-pro 模型少 22 分。 这次的Llama4 总共公布了3 个模型,分别包括Behemoth、Maverick、Scout(已经不知道这几个模型叫什么名字了),那我们也称为超大杯、大杯和普通版本。 在官方放出的不同模型对比图上:价格方面:在每 1M 输入输出 tokens 下,LLama4 Maverick 价格接近 0.19-0.49,价格应该说是比 DeepSeek v3 要便宜一点。 从上面测试的案例来看,LLama4 缺乏想 R3、o1 这样的推理能力,所以导致在需要仔细思考的问题下,答案往往是错的。
修复 NVIDIA GPU 运行 llama4 时的错误 对于深度学习和大模型推理,GPU加速是体验的关键。 此前部分用户在 NVIDIA GPU 设备上运行 llama4 模型时,遇到运行错误,阻碍了高效模型推理。 问题源头: • 兼容性缺陷导致部分 GPU 资源调度异常,引发模型加载失败或崩溃。 • 具体优化了 llama4 模型在暗黑GPU环境下的张量处理逻辑,减少资源竞争。 用户好处: • 运行更稳健,错误率大幅降低。 • 大幅提升基于 GPU 的推理效率,实现更快响应。 3.
llama4、nvidia nemotron并没有多么震撼,美国AI能力也不过如此,攻守易型了。
使用针对非推理模型定制的BET Eval工具及V1.0指标,比较了新发布的Nova模型(Pro和Premier)与同类最新模型:Claude(3.5 v2和3.7非推理模式)及Llama4 Maverick
内置函数 min/max 应用 在多个图像处理模块中,替换了 math.Min、math.Max 为 Go 语言的内置 min()、max() 方法: • llama4 及 mllama 模型的 process_image.go
Llama4哪里去了?
提供SLA保障,自建服务需考虑容灾备份四、场景化选型建议:不同需求的最佳匹配场景1:企业级通用AI助手推荐组合:Claude4Opus+Llama4混合架构理由:Claude处理敏感文档(法律/财务),Llama4 本地部署处理日常问答成本测算:100万月活用户场景下,年成本约$24万(对比纯API方案节省60%)部署架构:前端Llama4处理实时交互,后端Claude4处理复杂任务场景2:研发与编程辅助推荐模型:
使用 BET Eval 工具及其针对非推理模型定制的 V1.0 指标,比较了最近发布的 Nova 模型与同类别最新模型:Claude 和 Llama4 Maverick,所有这些模型都通过某基础平台提供
五、各模型加载代码调整 为了适配 Multi-Regex 方案和新引擎,本次更新重构了多个模型的加载方法,包括: • llama / llama4 系列 • mistral3 • mllama • qwen2
R1训练耗费550万美元,就让Llama4坐不住了。V3就让他们恐慌,R1一出更是不敢说话了。
(不过,也有网友称并非是与Llama4相关) 但是根据Meta的组织架构体系,Pineau是FAIR的副总裁,而FAIR实际上是Meta内部与GenAI完全独立的组织,GenAI才是负责Llama项目的组织
极速骨干网(EBB):服务于AI集群的“广域DCI专网”类似于阿里/腾讯/字节的长途DCI骨干专网,区别于Llama4集群内部的“园区级短距互联”,EBB专注于在跨州、跨洋的广域尺度上,运行自研的Open 算法,全局流量编排引入了SBT(Scheduled Bulk Transfers)机制——在SR-TE技术栈的基础上创新性地引入了“带宽日历(Bandwidth Calendar)”,让TE控制器能够为Llama4
此次v0.9.3版本,推出了InternVL3、Qwen3、Gemma3、Llama4等多款重量级多模态模型,同时引入了音视频推理支持、官方GPU docker镜像、全新推理引擎以及多种优化功能。
模型推理 response = self.model_deployer.generate('llama4', prompt) # 5. knowledge, response, tool_result ) response = self.model_deployer.generate('llama4
Akshay:假设Meta构建了Llama4,或者Nvidia的GPU有哪些关键创新可以帮助降低功耗、电力需求,尤其是Nvidia Blackwell平台承诺比NVIDIA Hopper架构节省25倍的成本和能耗
作者 | 华卫 DeepSeek 发布后,全球兴起大模型开源浪潮,Meta 刚刚发布 Llama4,谷歌、微软等科技巨头也在 AI 领域不断推陈出新,连 OpenAI 的 GPT-5 不久前都官宣要免费开放了