ChatGPT与最大似然估计

江南一点雨

发布于 2026-03-26 17:18:54

380

文章被收录于专栏：AI应用开发实践AI应用开发实践

本文接着【为文字建立数学模型】一文继续聊。

ChatGPT 虽然复杂，但是它的内部原理其实和我们在【为文字建立数学模型】一文中所讨论的概率模型是一致的。

我们也来简单梳理下。

ChatGPT 的文字建模公式是语言模型基础理论的高阶扩展，它的核心公式是这样：

这里涉及到几个参数：

U：整个训练语料库；
：第 i 个词（或子词）；
k：上下文窗口大小；
：模型参数集合。

小伙伴们可以看到，这个公式和我们在【为文字建立数学模型】一文中所讨论的公式基本上一致。如果有小伙伴看过初代 GPT 论文，就会发现这个公式和论文中的公式基本上是一致的：

这里涉及到一个点，最大似然估计，我们来简单说一下。

统计学家（尤其是费歇尔爵士）观察到，很多时候我们不仅观测到现象（数据），我们还想知道背后的原因（模型参数）。既然数据已经发生了，那么最有可能的那个原因，应该就是那个能让该数据发生可能性最大的原因。这是一种基于观测进行反向推断的非常强大且直观的原理。

“似然”不是“概率”：这点很重要，但容易混淆。

概率通常是向前看：给定一个模型（参数），预测未来或潜在数据出现的可能性。比如，“张三吃饼干，掉碎屑的概率是60%”。
似然则是向后看：给定已知的观测数据（碎屑），评估某个具体模型参数（张三的60%，李四的5%等）在这个数据下看起来有多“合理”、多“可能”。它衡量的是模型生成这个特定数据的合拍程度。

举个简单的例子：

假设你是一个侦探，房间里发生了一起“饼干失窃案”。现场留下了关键的线索：地上撒落了一些碎屑（这就是我们看到的“数据”或“结果”）。

你面前有三个嫌疑人（这代表不同的可能原因或模型）：

张三：平时吃饼干时最容易掉碎屑，有 60% 的饼干都会被他弄出碎屑。
李四：吃饼干非常小心，只有 5% 的饼干会掉出碎屑。
王五：吃饼干马马虎虎，大约 30% 的饼干会掉出碎屑。

你作为侦探的任务是：根据现场发现的碎屑（数据），推断哪个嫌疑人（模型/参数值）最有可能是“作案者”，也就是导致这个“碎屑现场”的原因。

最大似然估计（Maximum Likelihood Estimation, MLE）是怎么思考的？

MLE 就像一个聪明的侦探助手，它会问这样一个问题：“假设是某个嫌疑人偷吃了饼干（模型成立），那么我们看到地上有这些碎屑（观测到的数据）这件事，发生的可能性有多大？”

然后，它对每一个嫌疑人都问一遍这个问题：

假设是张三吃的（模型参数=60%）: 那他吃饼干时掉出这些碎屑的可能性非常高（60%）。这个可能性数值（60%）就叫做 “似然”。
假设是李四吃的（模型参数=5%）: 那她吃饼干时掉出这么多碎屑的可能性非常低（5%）。这个似然值就很低。
假设是王五吃的（模型参数=30%）: 那掉出这些碎屑的可能性中等（30%）。这个似然值在中间。

MLE 助手比较完所有嫌疑人（所有模型参数）的似然值（每个模型生成所观察数据的可能性）后发现：

张三（60%）对应的似然值是最大的！

于是，MLE 助手报告：在目前看到这些饼干碎屑（数据）的情况下，“张三最有可能是偷吃饼干的人”。换句话说，参数值 60% 是这个模型（吃饼干掉碎屑的概率模型）最有可能产生我们所观察到的碎屑数据的值。

这就是最大似然估计。

回到我们一开始的 ChatGPT 公式。

我们说 U 就相当于整个训练语料库，理论上 U 应该是全人类所有文字语料的合集，但实际上 ChatGPT 在训练时并不能也不可能收集到全人类的所有文字语料。ChatGPT 在训练时采用的语料主要有 Common Crawl、WebText2、书籍语料、维基百科、GitHub 等等，这些语料无法代表全人类的所有文本语料。但是在训练模型时，我们需要假设这些数据约等于全人类所有的文字语料。

ChatGPT 学习了这些语料之后，要学会预测，比如：“今天天气真___” 后面最可能跟什么？“好”？“不错”？“热”？还是“大象”？显然“好”、“不错”、“热”比“大象”可能性大得多。

ChatGPT 里有很多可以调整的参数。这些参数代表了语言的规律，比如哪些词经常一起出现（“天气”和“好”），语法结构，词的含义关联等。MLE 的核心要求是通过调整参数，使得在真实句子中实际出现的下一个词（比如“好”）的可能性，尽可能地大！它希望自己预测“好”的概率很高。这样就把一个比较复杂的语言问题转变为一个数学问题（最大似然估计），工程师们则通过梯度下降算法让计算机去逼近这个目标。

ChatGPT 用最大似然估计 (MLE)，就像在玩一个超大型的“猜下一个词”游戏。它通过疯狂阅读人类写的所有文字，不断调整自己的“大脑”，目标只有一个：让它读到的所有真实句子，看起来都是“最顺理成章”、“最不奇怪”的。它学会的，就是人类语言中“最可能”出现的说话模式。所以它能像人一样聊天，但也可能像人一样犯错或说些“正确的废话”。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-07-15，如有侵权请联系 cloudcommunity@tencent.com 删除

原理