这个开源项目有点危险：Heretic 想把大模型的“安全阀”直接拆了

文章来源：企鹅号 - Java面试那些事儿

以下文章来源于AI工具教程，作者AI工具教程

这两天，一个叫 Heretic 的开源项目在 GitHub 上冲得很快。它最抓眼球的地方，不是把模型做得更强，也不是把推理成本再压低一点，而是反着来：它盯上的，是大模型那层大家已经默认存在的“安全审查机制”。

项目作者在 README 里写得很直白，Heretic 的目标就是在不做昂贵后训练的前提下，自动移除 Transformer 架构语言模型里的 safety alignment，也就是我们常说的安全对齐。仓库目前星标已经到 1.5 万以上，最近版本也还在持续更新。

这事让人发凉的点，不只是它在做什么，而是它把门槛压得很低。过去你说“解除模型限制”，多数人脑子里浮现的还是 jailbreak、对抗提示词，多少有点玄学味道；Heretic 不一样，它做的是更底层的干预。

按照仓库描述，它把 directional ablation 这类方法和 Optuna 的参数优化结合起来，目标是同时减少模型拒答，又尽量维持和原模型接近的能力表现。说白了，它不是教你怎么绕过护栏，而是想直接把护栏从结构里拿掉。

但有意思的地方也在这儿。Heretic 又不完全像那种纯挑衅型项目。作者在路线图里写得很明确，后面想把它做成一种“无需训练的模型修改工具”，默认方向当然还是去审查，但也会加入研究功能，用来帮助理解模型内部机制、探索新的干预方法。

再加上它支持可视化分析、残差空间研究这类能力，所以它很容易吸引一批做可解释性研究的人。你很难一句话把它骂成“纯恶意工具”，但也很难装作它只是个中性的科研玩具。

我对这类项目的真实感受是：它提醒了很多人一件一直不太愿意承认的事——今天很多所谓“安全”，并没有想象中那么牢。它不一定是写进模型灵魂里的东西，很多时候更像后来加上的一层行为外壳。

只要有人开始把这层外壳做成自动化拆解流程，整个行业就得重新面对一个问题：我们现在看到的“对齐”，到底是深层能力，还是一层可剥离的表面工程？

所以，Heretic 值得关注，但不是因为它“解放了模型”，而是因为它把一个原本只在研究圈里讨论的敏感问题，突然扔到了大众面前：当拆安全阀都能被产品化、自动化时，大模型安全这件事，可能还远没到可以放心的时候。

相关快讯