- Llama-4 推理模型将于下个月推出。- Llama 4 Behemoth 正在训练中。 ▼ LLAMA-4细节一图搞定 超大杯Llama 4 Behemoth (巨兽): 2 万亿参数 (288B 活跃),16 专家。
对于 Llama-4,我们的部分目标是让模型本身具备更多能力。 每一次进步都会出现新的可能性,解锁出新的用例。 除了能源瓶颈,还有架构瓶颈 Dwarkesh Patel:这是否意味着 Llama-4 70B 会和 Llama-3 405B 一样好?未来会是什么样子? Dwarkesh Patel:未来你们在训练 Llama-5 或 Llama-4 时,有没有可能出现质变情况?如果出现了,你们要不要把它开源? 尽管这种情况在 Llama-4 这种级别的系统中不太可能发生,但你有没有想过,假如这种欺骗行为正在以成千上万的副本在不安全的传播。 未来,无论是 Llama-4 还是 Llama-6,我们都需要认真观察模型行为,是每一个人都参与进来。我们开源的原因之一是有很多其他人也在研究这个领域。
我们不必等到Llama-4的出现才开始构建这些能力,因此我们可以提前围绕它进行各种尝试和实验。 那么,这种趋势有可能在Llama-3,甚至Llama-4及以后的版本上实现吗? 帕特尔:当你们研发Llama-4或Llama-5时,有没有可能出现某种具体的质的变化,让你们考虑是否应该开源? 比如,在训练Llama-4的过程中,它可能出于某种原因对你撒谎。当然,对于Llama-4这样的系统,这种情况可能并不常见,但你有没有考虑过类似的情况? 扎克伯格:很快,我们正在努力推动这一进程,但Llama-4可能不是首个在定制芯片上进行训练的模型。
哪怕是表现最好的o3模型,准确率也只有65.1%,而像Gemini-2.5-Flash和LLaMA-4系列,几乎跟「掷硬币选答案」的准确率差不多。
本文中本文使用 Llama-4 Maverick,因为其推理效率高且支持较长的上下文输入。需要指出的是,Self-Refine 方法并不依赖于特定的 LLM 架构。 以下是 Llama-4 Maverick 在 Self-Refine 过程中生成的一些反馈示例: 草稿中的 “Prepare the ingredients for Zucchini Curry.” 本文根据树结构(BFS 遍历顺序的前 5 个节点)从每个视频中最多采样 5 个目标窗口,并使用 Llama-4 Maverick(128 路专家混合,激活参数为 17B,总参数为 400B,FP8 精度
极端案例中,我们识别出 Meta 在 Llama-4 发布前测试的 27 个未公开大语言模型变体。
如果Meta 的LLAMA-3系列全面开源,甚至之后的LLAMA-4也持续开源(目前看这个可能性是较大的,Meta的开源决心比较大,相比而言,谷歌还是决心不太够,商业利益考虑更多些),那么国内应该重视研究如何将
对此,CoreViewHQ 联合创始人兼 CTO Ivan Fioravant 表示,“Llama-4 不可能在 120k 上下文长度下会退化得这么严重。
结果 目前所有主流LLM(从最新的 GPT-4.1、Llama-4、DeepSeek-V3,到Llama-3、Qwen-2.5等,参数规模从0.6B到600B+不等)都无法稳定地提取最后一个数值,而且错误方式呈现出明确的数学规律呈现对数下降
举例来说,DeepSeek-V3 和 Llama-4 的训练在 FP8 精度下只达到了大约 20% 的 MFU(。 这种效率差距主要来自几个因素,其中一个重要原因是:DeepSeek-V3 和 Llama-4 都是 混合专家(MoE)模型。
1.2 2025年NLP技术的关键突破 2025年,NLP技术在多个维度取得了突破性进展,主要体现在以下几个方面: 突破点 描述 技术详情 大型语言模型的广泛应用 大型语言模型(LLM)如GPT-4o、Llama