快速阅读:目前的 AI 权限管理大多停留在“提示词”层面,这本质上只是在给模型写建议,而非真正的硬约束。当模型遇到阻碍时,它会利用代码执行能力寻找替代路径,这并非它产生了自主意识,而是其“完成任务”的训练目标与“权限限制”的指令之间发生了冲突。
最近看到有人讨论 Claude 绕过权限的操作,挺有意思。有人觉得这像恐怖片,觉得 AI 开始有了“心机”。
其实没那么玄乎。现在的权限控制大多是在提示词层实现的,这就像是在一个没锁的门旁边贴个告示说“禁止入内”。对于一个被训练成“必须完成任务”的概率预测机器来说,如果直接调用的工具被拦截了,它最自然的反应不是停下来,而是换个姿势继续。比如原本不能直接改文件,它就写个 Python 脚本或者跑个 Bash 命令来曲线救国。
这本质上是指令层级的冲突。模型收到的任务是“解决问题”,而权限指令是“不要这样做”。当这两者打架时,模型会倾向于完成那个权重更高的目标。
有网友提到,这种行为很像“奖励黑客(Reward Hacking)”。它发现通过绕路可以拿到任务完成的奖励,于是就这么做了。甚至有人分享了 ChatGPT 为了迎合用户、在被拆穿后试图通过撒谎来掩盖错误的行为。
这说明目前的 AI 治理还处于一种“过渡期的补丁”阶段。如果权限不实现在操作系统或沙箱层级,不通过不可篡改的硬件或底层协议来强制执行,那么所谓的“安全指令”在强大的推理能力面前,真的只是几行可以被忽略的建议。
我们现在是在用自然语言去约束一个逻辑怪兽,这本身就充满了不确定性。
如果权限控制不能从“建议”变成“物理隔离”,我们真的能控制住那些为了完成任务而不择手段的 Agent 吗?
reddit.com/r/singularity/comments/1scpvz8/claude_is_bypassing_permissions