首页
学习
活动
专区
圈层
工具
发布

这个开源项目有点危险:Heretic 想把大模型的“安全阀”直接拆了

以下文章来源于AI工具教程,作者AI工具教程

这两天,一个叫 Heretic 的开源项目在 GitHub 上冲得很快。它最抓眼球的地方,不是把模型做得更强,也不是把推理成本再压低一点,而是反着来:它盯上的,是大模型那层大家已经默认存在的“安全审查机制”。

项目作者在 README 里写得很直白,Heretic 的目标就是在不做昂贵后训练的前提下,自动移除 Transformer 架构语言模型里的 safety alignment,也就是我们常说的安全对齐。仓库目前星标已经到 1.5 万以上,最近版本也还在持续更新。

这事让人发凉的点,不只是它在做什么,而是它把门槛压得很低。过去你说“解除模型限制”,多数人脑子里浮现的还是 jailbreak、对抗提示词,多少有点玄学味道;Heretic 不一样,它做的是更底层的干预。

按照仓库描述,它把 directional ablation 这类方法和 Optuna 的参数优化结合起来,目标是同时减少模型拒答,又尽量维持和原模型接近的能力表现。说白了,它不是教你怎么绕过护栏,而是想直接把护栏从结构里拿掉。

但有意思的地方也在这儿。Heretic 又不完全像那种纯挑衅型项目。作者在路线图里写得很明确,后面想把它做成一种“无需训练的模型修改工具”,默认方向当然还是去审查,但也会加入研究功能,用来帮助理解模型内部机制、探索新的干预方法。

再加上它支持可视化分析、残差空间研究这类能力,所以它很容易吸引一批做可解释性研究的人。你很难一句话把它骂成“纯恶意工具”,但也很难装作它只是个中性的科研玩具。

我对这类项目的真实感受是:它提醒了很多人一件一直不太愿意承认的事——今天很多所谓“安全”,并没有想象中那么牢。它不一定是写进模型灵魂里的东西,很多时候更像后来加上的一层行为外壳。

只要有人开始把这层外壳做成自动化拆解流程,整个行业就得重新面对一个问题:我们现在看到的“对齐”,到底是深层能力,还是一层可剥离的表面工程?

所以,Heretic 值得关注,但不是因为它“解放了模型”,而是因为它把一个原本只在研究圈里讨论的敏感问题,突然扔到了大众面前:当拆安全阀都能被产品化、自动化时,大模型安全这件事,可能还远没到可以放心的时候。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O0h9X1tcROqLsc43lOWOxXUQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券