搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏AI进修生
Llama 4 开源了！千万上下文 + 单卡H100跑 400B + 反超DeepSeek，网友：RAG还好吗？
- Llama-4 推理模型将于下个月推出。- Llama 4 Behemoth 正在训练中。 ▼ LLAMA-4细节一图搞定超大杯Llama 4 Behemoth (巨兽): 2 万亿参数 (288B 活跃)，16 专家。
43110编辑于 2025-04-07
来自专栏机器之心
Llama 3超大杯有何惊喜？Meta会一直开源吗？当初为何笃信元宇宙？扎克伯格新访谈回应一切
对于 Llama-4，我们的部分目标是让模型本身具备更多能力。每一次进步都会出现新的可能性，解锁出新的用例。除了能源瓶颈，还有架构瓶颈 Dwarkesh Patel：这是否意味着 Llama-4 70B 会和 Llama-3 405B 一样好？未来会是什么样子？ Dwarkesh Patel：未来你们在训练 Llama-5 或 Llama-4 时，有没有可能出现质变情况？如果出现了，你们要不要把它开源？尽管这种情况在 Llama-4 这种级别的系统中不太可能发生，但你有没有想过，假如这种欺骗行为正在以成千上万的副本在不安全的传播。未来，无论是 Llama-4 还是 Llama-6，我们都需要认真观察模型行为，是每一个人都参与进来。我们开源的原因之一是有很多其他人也在研究这个领域。
29310编辑于 2024-04-26
扎克伯格最新采访：Meta最强开源模型Llama 3凭什么值百亿美金
我们不必等到Llama-4的出现才开始构建这些能力，因此我们可以提前围绕它进行各种尝试和实验。那么，这种趋势有可能在Llama-3，甚至Llama-4及以后的版本上实现吗？帕特尔：当你们研发Llama-4或Llama-5时，有没有可能出现某种具体的质的变化，让你们考虑是否应该开源？比如，在训练Llama-4的过程中，它可能出于某种原因对你撒谎。当然，对于Llama-4这样的系统，这种情况可能并不常见，但你有没有考虑过类似的情况？扎克伯格：很快，我们正在努力推动这一进程，但Llama-4可能不是首个在定制芯片上进行训练的模型。
36410编辑于 2024-04-19
来自专栏新智元
全球首个科研LLM竞技场上线！23款顶尖模型火拼：o3夺冠，DeepSeek第四
哪怕是表现最好的o3模型，准确率也只有65.1%，而像Gemini-2.5-Flash和LLaMA-4系列，几乎跟「掷硬币选答案」的准确率差不多。
19700编辑于 2025-07-12
视觉语言世界模型来了！AI不仅能看懂视频，还能自我反思制定计划，离人类思维更近一步!
本文中本文使用 Llama-4 Maverick，因为其推理效率高且支持较长的上下文输入。需要指出的是，Self-Refine 方法并不依赖于特定的 LLM 架构。以下是 Llama-4 Maverick 在 Self-Refine 过程中生成的一些反馈示例：草稿中的 “Prepare the ingredients for Zucchini Curry.” 本文根据树结构（BFS 遍历顺序的前 5 个节点）从每个视频中最多采样 5 个目标窗口，并使用 Llama-4 Maverick（128 路专家混合，激活参数为 17B，总参数为 400B，FP8 精度
25210编辑于 2025-11-17
每周AI论文速递（250428-250502）
极端案例中，我们识别出 Meta 在 Llama-4 发布前测试的 27 个未公开大语言模型变体。
32810编辑于 2025-05-05
来自专栏NewBeeNLP
谈谈对 Llama3的个人看法
如果Meta 的LLAMA-3系列全面开源，甚至之后的LLAMA-4也持续开源（目前看这个可能性是较大的，Meta的开源决心比较大，相比而言，谷歌还是决心不太够，商业利益考虑更多些），那么国内应该重视研究如何将
63410编辑于 2024-04-26
来自专栏深度学习与python
Llama 4 先后被 DeepSeek、英伟达暴击，Meta 不再是大模型开源“霸主”了
对此，CoreViewHQ 联合创始人兼 CTO Ivan Fioravant 表示，“Llama-4 不可能在 120k 上下文长度下会退化得这么严重。
31000编辑于 2025-04-13
来自专栏新智元
大模型再爆弱点！旧记忆忘不掉，新记忆分不出，准确率暴降 | ICML'25
结果目前所有主流LLM（从最新的 GPT-4.1、Llama-4、DeepSeek-V3，到Llama-3、Qwen-2.5等，参数规模从0.6B到600B+不等）都无法稳定地提取最后一个数值，而且错误方式呈现出明确的数学规律呈现对数下降
32710编辑于 2025-07-21
来自专栏机器之心
遥遥无期的AGI是画大饼吗？两位教授「吵起来了」
举例来说，DeepSeek-V3 和 Llama-4 的训练在 FP8 精度下只达到了大约 20% 的 MFU（。这种效率差距主要来自几个因素，其中一个重要原因是：DeepSeek-V3 和 Llama-4 都是混合专家（MoE）模型。
13210编辑于 2025-12-31
来自专栏AI SPPECH
2025年自然语言处理核心技术与应用实战
1.2 2025年NLP技术的关键突破 2025年，NLP技术在多个维度取得了突破性进展，主要体现在以下几个方面：突破点描述技术详情大型语言模型的广泛应用大型语言模型（LLM）如GPT-4o、Llama
1.9K11编辑于 2025-11-13

Llama 4 开源了！千万上下文 + 单卡H100跑 400B + 反超DeepSeek，网友：RAG还好吗？

Llama 3超大杯有何惊喜？Meta会一直开源吗？当初为何笃信元宇宙？扎克伯格新访谈回应一切

扎克伯格最新采访：Meta最强开源模型Llama 3凭什么值百亿美金

全球首个科研LLM竞技场上线！23款顶尖模型火拼：o3夺冠，DeepSeek第四

视觉语言世界模型来了！AI不仅能看懂视频，还能自我反思制定计划，离人类思维更近一步!

每周AI论文速递（250428-250502）

谈谈对 Llama3的个人看法

Llama 4 先后被 DeepSeek、英伟达暴击，Meta 不再是大模型开源“霸主”了

大模型再爆弱点！旧记忆忘不掉，新记忆分不出，准确率暴降 | ICML'25

遥遥无期的AGI是画大饼吗？两位教授「吵起来了」

2025年自然语言处理核心技术与应用实战

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐