OpenAI开源新模型展示大语言模型的可解释性

AgenticAI

发布于 2025-12-18 21:02:42

2080

文章被收录于专栏：AgenticAIAgenticAI

OpenAI今日放出一个新模型 circuit-sparsity，大小只有0.4B参数，类似GPT-2架构的语言模型，主要用于理解模型，即模型的可解释性。

通过训练“先稀疏后解释”的模型，我们能一步步让 AI 内部机制更透明、更可理解。

现在的 AI 模型太复杂了。它们像一个超级巨大的迷宫，有上亿甚至上千亿条连接，每个连接都有不同的“权重”，组成一个完全缠在一起的系统。我们训练模型时让它自己调整这些连接去完成任务，但我们看不懂里面到底发生了什么。

理解模型不只是“好奇心”，而是为了：预测模型什么时候会出错、让模型行为更安全、检测模型是否会做不对的事（比如作弊、偏见决策）和更好地控制 AI 的输出。

这些都需要知道模型内部是怎么一步一步得出答案的。所以OpenAI的研究人员试了一种新方法：把模型里大部分连接设为零，只用少数关键连接来让模型完成任务，这样就能把模型内部拆成一小块一小块的“电路”，便于理解和解释。想象把一个乱七八糟的机械钟拆掉大部分齿轮，只剩下做好一个功能所需的关键齿轮——这就更容易看懂它怎么动。

具体的就是：他们训练了一种类似 GPT-2 架构的语言模型，但强制 绝大多数连接（权重）为零，只留少量可用连接。这样模型内部就不像蜘蛛网，而像很简单的电路。