首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏AI进修生

    Llama 4 开源了!千万上下文 + 单卡H100跑 400B + 反超DeepSeek,网友:RAG还好吗?

    - Llama-4 推理模型将于下个月推出。- Llama 4 Behemoth 正在训练中。 ▼ LLAMA-4细节一图搞定 超大杯Llama 4 Behemoth (巨兽): 2 万亿参数 (288B 活跃),16 专家。

    43110编辑于 2025-04-07
  • 来自专栏机器之心

    Llama 3超大杯有何惊喜?Meta会一直开源吗?当初为何笃信元宇宙?扎克伯格新访谈回应一切

    对于 Llama-4,我们的部分目标是让模型本身具备更多能力。 每一次进步都会出现新的可能性,解锁出新的用例。 除了能源瓶颈,还有架构瓶颈 Dwarkesh Patel:这是否意味着 Llama-4 70B 会和 Llama-3 405B 一样好?未来会是什么样子? Dwarkesh Patel:未来你们在训练 Llama-5 或 Llama-4 时,有没有可能出现质变情况?如果出现了,你们要不要把它开源? 尽管这种情况在 Llama-4 这种级别的系统中不太可能发生,但你有没有想过,假如这种欺骗行为正在以成千上万的副本在不安全的传播。 未来,无论是 Llama-4 还是 Llama-6,我们都需要认真观察模型行为,是每一个人都参与进来。我们开源的原因之一是有很多其他人也在研究这个领域。

    29310编辑于 2024-04-26
  • 扎克伯格最新采访:Meta最强开源模型Llama 3凭什么值百亿美金

    我们不必等到Llama-4的出现才开始构建这些能力,因此我们可以提前围绕它进行各种尝试和实验。 那么,这种趋势有可能在Llama-3,甚至Llama-4及以后的版本上实现吗? 帕特尔:当你们研发Llama-4或Llama-5时,有没有可能出现某种具体的质的变化,让你们考虑是否应该开源? 比如,在训练Llama-4的过程中,它可能出于某种原因对你撒谎。当然,对于Llama-4这样的系统,这种情况可能并不常见,但你有没有考虑过类似的情况? 扎克伯格:很快,我们正在努力推动这一进程,但Llama-4可能不是首个在定制芯片上进行训练的模型。

    36410编辑于 2024-04-19
  • 来自专栏新智元

    全球首个科研LLM竞技场上线!23款顶尖模型火拼:o3夺冠,DeepSeek第四

    哪怕是表现最好的o3模型,准确率也只有65.1%,而像Gemini-2.5-Flash和LLaMA-4系列,几乎跟「掷硬币选答案」的准确率差不多。

    19800编辑于 2025-07-12
  • 视觉语言世界模型来了!AI不仅能看懂视频,还能自我反思制定计划,离人类思维更近一步!

    本文中本文使用 Llama-4 Maverick,因为其推理效率高且支持较长的上下文输入。需要指出的是,Self-Refine 方法并不依赖于特定的 LLM 架构。 以下是 Llama-4 Maverick 在 Self-Refine 过程中生成的一些反馈示例: 草稿中的 “Prepare the ingredients for Zucchini Curry.” 本文根据树结构(BFS 遍历顺序的前 5 个节点)从每个视频中最多采样 5 个目标窗口,并使用 Llama-4 Maverick(128 路专家混合,激活参数为 17B,总参数为 400B,FP8 精度

    25210编辑于 2025-11-17
  • 每周AI论文速递(250428-250502)

    极端案例中,我们识别出 Meta 在 Llama-4 发布前测试的 27 个未公开大语言模型变体。

    32810编辑于 2025-05-05
  • 来自专栏NewBeeNLP

    谈谈对 Llama3的个人看法

    如果Meta 的LLAMA-3系列全面开源,甚至之后的LLAMA-4也持续开源(目前看这个可能性是较大的,Meta的开源决心比较大,相比而言,谷歌还是决心不太够,商业利益考虑更多些),那么国内应该重视研究如何将

    63410编辑于 2024-04-26
  • 来自专栏深度学习与python

    Llama 4 先后被 DeepSeek、英伟达暴击,Meta 不再是大模型开源“霸主”了

    对此,CoreViewHQ 联合创始人兼 CTO Ivan Fioravant 表示,“Llama-4 不可能在 120k 上下文长度下会退化得这么严重。

    31000编辑于 2025-04-13
  • 来自专栏新智元

    大模型再爆弱点!旧记忆忘不掉,新记忆分不出,准确率暴降 | ICML'25

    结果 目前所有主流LLM(从最新的 GPT-4.1、Llama-4、DeepSeek-V3,到Llama-3、Qwen-2.5等,参数规模从0.6B到600B+不等)都无法稳定地提取最后一个数值,而且错误方式呈现出明确的数学规律呈现对数下降

    33010编辑于 2025-07-21
  • 来自专栏机器之心

    遥遥无期的AGI是画大饼吗?两位教授「吵起来了」

    举例来说,DeepSeek-V3 和 Llama-4 的训练在 FP8 精度下只达到了大约 20% 的 MFU(。 这种效率差距主要来自几个因素,其中一个重要原因是:DeepSeek-V3 和 Llama-4 都是 混合专家(MoE)模型。

    13310编辑于 2025-12-31
  • 来自专栏AI SPPECH

    2025年自然语言处理核心技术与应用实战

    1.2 2025年NLP技术的关键突破 2025年,NLP技术在多个维度取得了突破性进展,主要体现在以下几个方面: 突破点 描述 技术详情 大型语言模型的广泛应用 大型语言模型(LLM)如GPT-4o、Llama

    1.9K11编辑于 2025-11-13
领券