撕毁 AI 剧本，巨头争先效仿，DeepSeek做对了什么？

大脸猫不吃鱼

修改于 2025-02-05 11:40:03

4390

不久前，DeepSeek发布了大型语言模型R1在美国科技界引起震动。R1不仅与美国本土竞争对手的最佳表现相匹配，而且建造成本仅为其一小部分。美国股市因此损失了1万亿美元，特朗普称这是美国科技行业的一个警钟，而震动仍在持续。

“DeepSeek R1是我见过的最令人惊叹、最令人印象深刻的突破之一——作为开源，这是给世界的一份深刻礼物，”硅谷的主要投资者Marc Andreessen在X上发帖说。但DeepSeek的创新并不是唯一的收获，DeepSeek选择了将R1和之前V3的模型及其构建细节开源出来，这一行为也揭示了推理模型的构建比人们想象的要容易得多，DeepSeek已经缩小了与世界顶级实验室的差距。

这一消息也激发了全球竞争对手的活力。阿里巴巴发布了Qwen的新版本，而美国顶级非营利实验室艾伦人工智能研究所（AI2）也发布更新了大型语言模型Tulu。两者都声称他们的最新模型超越了DeepSeek的同类产品。OpenAI的联合创始人兼首席执行官Sam Altman称赞R1的价格令人印象深刻，但同时自信地承诺：“我们显然会提供更好的模型。”

DeepSeek似乎突然成为了科技巨头必须击败的公司。它到底做了什么来如此彻底地震动科技界？市场的声音是否合理？我们能从关于接下来会发生什么的讨论中学到什么？

大模型的训练步骤

让我们先来解析大型语言模型是如何被训练的。训练过程主要分为两个阶段，即预训练（pretraining）和后训练（post-training）。预训练是人们通常讨论的阶段。在这一过程中，数十亿的文档——包括大量的网站、书籍、代码库等——被反复输入到神经网络中，直到它学会逐字生成看起来像其源材料的文本。最终得到的就是所谓的基础模型（base model）。

预训练是大部分工作发生的阶段，它可能需要花费巨额资金。但正如OpenAI的联合创始人、前特斯拉AI负责人Andrej Karpathy在去年的微软Build大会上所指出的：“基础模型并不是助手。它们只是想完成互联网文档。”

将大型语言模型转变为有用的工具需要额外的几个步骤。这就是后训练阶段，模型在这里学习执行特定任务，比如回答问题（或者像OpenAI的o3和DeepSeek的R1那样逐步回答问题）。过去几年中，这一步通常是通过取一个基础模型并训练它模仿由大量人类测试者提供的问答对示例来完成的。这一步被称为监督式微调（supervised fine-tuning）。

OpenAI随后开创了另一个步骤，即模型的示例答案由人类测试者评分——然后使用这些分数来训练模型，使其未来的答案更像那些得分高的，而不像那些得分低的。这种技术被称为基于人类反馈的强化学习（RLHF），它使得像ChatGPT这样的聊天机器人如此出色。RLHF现在已被整个行业采用。

但这些后训练步骤需要时间。DeepSeek展示的是，你几乎完全不需要人工干预就能获得相同的结果——至少大多数时候是这样。DeepSeek用一个完全自动化的强化学习步骤取代了监督式微调和RLHF。该公司不是使用人类反馈来引导其模型，而是使用计算机产生的反馈分数。

“跳过或减少人类反馈——这是一个大事，”以色列AI编码初创公司Qodo的联合创始人兼首席执行官、前阿里巴巴研究总监Itamar Friedman说。“你几乎可以完全在不需要人类劳动的情况下训练模型。”

这种方法的缺点是，计算机在评分数学和编程问题的答案方面很擅长，但在评分开放式或更主观的问题上就不太擅长了。这就是为什么R1在数学和编程测试中表现特别出色。为了训练其模型回答更广泛的非数学问题或执行创造性任务，DeepSeek仍然需要人们提供反馈。

但即便如此，在中国这样做成本更低。“相对于西方市场，中国创造高质量数据的成本较低，并且拥有更多具有数学、编程或工程领域大学资质的人才库，”澳大利亚人工智能公司Appen的副总裁、前亚马逊网络服务中国区负责人Si Chen说。

DeepSeek利用这种方法构建了一个名为V3的基础模型，与OpenAI的旗舰模型GPT-4o相媲美。上周的R1，这个与OpenAI的o1相匹配的新模型，是在V3的基础上构建的。为了构建R1，DeepSeek对V3进行了反复的强化学习循环。

2016年，谷歌DeepMind展示了这种无需人工输入的自动化试错方法，可以将一个随机移动的棋盘游戏模型训练成击败大师的模型。DeepSeek对大型语言模型做了类似的事情：潜在答案被视为游戏中的可能移动。

起初，模型并没有像DeepSeek所希望的那样逐步解决问题来生成答案。但通过对模型的样本答案进行自动评分，训练过程逐渐引导它朝期望的行为发展。

最终，DeepSeek产生了一个在多个基准测试中表现良好的模型。但这个名为R1-Zero的模型给出的答案难以阅读，并且是用多种语言混合写成的。为了让它进行最后的调整，DeepSeek在强化学习过程中加入了一小部分由人提供的示例响应数据集。在这些数据上训练R1-Zero产生了DeepSeek命名为R1的模型。

此外，为了使其强化学习的使用尽可能高效，DeepSeek还开发了一种名为组相对策略优化（GRPO）的新算法。它一年前首次使用GRPO构建了一个名为DeepSeekMath的模型。

值得借鉴的通用方法

DeepSeek公司采用的强化学习方法是其在R1论文中描述的主要创新点。但DeepSeek并不是唯一一家尝试这种技术的公司。在R1发布前两周，微软亚洲的一个团队宣布了一个名为rStar-Math的模型，该模型也是以类似的方式训练的。“它的性能也有类似的巨大飞跃，”AI公司Clarifai的创始人兼首席执行官Matt Zeiler说。

AI2的Tulu也是使用高效的强化学习技术构建的（但在人类主导的步骤如监督式微调和RLHF的基础上，而不是取代它们）。Hugging Face也在竞相复制R1，推出了OpenR1，这是DeepSeek模型的一个克隆，Hugging Face希望它能够揭示R1特殊配方中的更多成分。

此外，众所周知，像OpenAI、谷歌DeepMind和Anthropic这样的科技公司可能已经在使用了他们自己版本的DeepSeek方法去训练他们的新一代模型。“我肯定他们在做几乎完全相同的事情，但他们会有自己的特色，”Zeiler说。

但DeepSeek不仅仅有一个技巧。它训练了其基础模型V3来进行所谓的多标记预测，即模型学会一次预测一串单词，而不是一次一个。这种训练更便宜，而且事实证明也能提高准确性。“如果你想想你的说话方式，当你说到句子一半时，你就知道句子的其余部分是什么，”Zeiler说。“这些模型也应该能够做到这一点。”

它还找到了创建大型数据集的更便宜的方法。为了训练去年的模型DeepSeekMath，DeepSeek采用了一个名为Common Crawl的免费数据集——从互联网上抓取的大量文档——并使用自动化过程提取只包含数学问题的文档。这比手工构建一个新的数学问题数据集要便宜得多。这也更有效：Common Crawl包含的数学内容比任何其他可用的专业数学数据集都要多。

在硬件方面，DeepSeek找到了新的方法来提升旧芯片的性能，使其能够在不购买市场上最新硬件的情况下训练顶级模型。他们一半的创新来自直接的工程，Zeiler说：“他们的队伍里绝对有一些非常非常优秀的GPU工程师。”

新时代的到来

全球有数百家初创公司试图构建下一个重大突破。为什么我们在几周内看到了像OpenAI的o1和o3、谷歌DeepMind的Gemini 2.0 Flash Thinking以及现在的R1这样的一系列推理模型的出现呢？

答案是基础模型——GPT-4o、Gemini 2.0、V3——现在都已经足够好，可以从中诱导出类似推理的行为。Hugging Face的科学家Lewis Tunstall说：“R1展示的是，拥有足够强大的基础模型，强化学习足以从语言模型中引出推理，而无需任何人类监督”。

换句话说，很多科技巨头可能已经知道如何做到这一点，但一直保持沉默。“似乎有一种聪明的方法可以将你的基础模型、预训练模型转变为一个更强大的推理模型，”Zeiler说。“到目前为止，将预训练模型转换为推理模型所需的程序并不为人所熟知。它不是公开的。”

R1的不同之处在于DeepSeek公布了他们是如何做到的。“结果发现这个过程并不是那么昂贵，”Zeiler说。“困难的部分是首先获得那个预训练模型。”正如Karpathy去年在微软Build大会上揭示的，预训练一个模型代表了99%的工作和大部分成本。

如果构建推理模型并不像人们想象的那么困难，我们可以期待大量比我们迄今为止看到的更强大的免费模型的涌现。随着这些知识公开，Friedman认为，小公司之间将会有更多的合作，削弱了最大公司所享有的优势。“我认为这可能是一个具有纪念意义的时刻，”他说。

本文系外文翻译，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

DeepSeek

本文系外文翻译，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

DeepSeek

登录后参与评论

0 条评论

热度