以下文章来源于AI工具教程,作者AI工具教程
这两天,一个叫 Heretic 的开源项目在 GitHub 上冲得很快。它最抓眼球的地方,不是把模型做得更强,也不是把推理成本再压低一点,而是反着来:它盯上的,是大模型那层大家已经默认存在的“安全审查机制”。
项目作者在 README 里写得很直白,Heretic 的目标就是在不做昂贵后训练的前提下,自动移除 Transformer 架构语言模型里的 safety alignment,也就是我们常说的安全对齐。仓库目前星标已经到 1.5 万以上,最近版本也还在持续更新。
这事让人发凉的点,不只是它在做什么,而是它把门槛压得很低。过去你说“解除模型限制”,多数人脑子里浮现的还是 jailbreak、对抗提示词,多少有点玄学味道;Heretic 不一样,它做的是更底层的干预。
按照仓库描述,它把 directional ablation 这类方法和 Optuna 的参数优化结合起来,目标是同时减少模型拒答,又尽量维持和原模型接近的能力表现。说白了,它不是教你怎么绕过护栏,而是想直接把护栏从结构里拿掉。
但有意思的地方也在这儿。Heretic 又不完全像那种纯挑衅型项目。作者在路线图里写得很明确,后面想把它做成一种“无需训练的模型修改工具”,默认方向当然还是去审查,但也会加入研究功能,用来帮助理解模型内部机制、探索新的干预方法。
再加上它支持可视化分析、残差空间研究这类能力,所以它很容易吸引一批做可解释性研究的人。你很难一句话把它骂成“纯恶意工具”,但也很难装作它只是个中性的科研玩具。
我对这类项目的真实感受是:它提醒了很多人一件一直不太愿意承认的事——今天很多所谓“安全”,并没有想象中那么牢。它不一定是写进模型灵魂里的东西,很多时候更像后来加上的一层行为外壳。
只要有人开始把这层外壳做成自动化拆解流程,整个行业就得重新面对一个问题:我们现在看到的“对齐”,到底是深层能力,还是一层可剥离的表面工程?
所以,Heretic 值得关注,但不是因为它“解放了模型”,而是因为它把一个原本只在研究圈里讨论的敏感问题,突然扔到了大众面前:当拆安全阀都能被产品化、自动化时,大模型安全这件事,可能还远没到可以放心的时候。