首页
学习
活动
专区
圈层
工具
发布

向量干预崛起,大模型无限制使用迎来全新思路

快速阅读:通过在推理阶段直接干预模型内部激活值(Steering Vectors),可以实现比提示词更深层的行为控制。这种技术不仅能调整语气,更能在不损害模型通用能力的前提下,动态地移除拒绝回答(Refusal)等限制。

如果你能直接拨动模型的“性格旋钮”,世界会变成什么样?

最近 DwarfStar 4 项目让这个想法变得触手可及。它针对 DeepSeek-V4-Flash 做了极致优化,让这种原本属于实验室的“脑外科手术”——Steering(转向控制)——可以在本地运行。

这种技术本质上是在寻找模型大脑里的特定向量。比如你想让模型变简洁,就找到代表“简洁”的激活方向,然后在推理时把它加进去。这比写长长的提示词更优雅,也更直接。

有意思的是,这种方法在处理“拒绝回答”时展现出了极强的杀伤力。

很多人觉得移除模型限制(Uncensoring)必须通过微调权重,但那样太暴力了,容易把模型的智商也一起拆掉。而 Steering 像是在运行时的指令流水线里加了一个补丁,你可以只在需要的时候,比如进行网络安全研究时,临时关掉那个“拒绝”的开关。

有网友提到,这种动态干预比修改 GGUF 文件要高级得多。因为微调是永久性的硬改,而 Steering 是运行时(Runtime)的微调。你可以精确到只在模型“思考”之后应用向量,或者只在特定阈值触发。

当然,这也有边界。如果一个概念太复杂,比如“智能”,它可能已经弥散在所有的权重里了,这时候你找不到单一的向量,只能通过训练来解决。

现在的分水岭在于,当这种控制权从大型实验室转移到开发者手中时,我们是在获得更强大的工具,还是在制造更难预测的怪兽?

seangoedecke.com/steering-vectors/

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OcYXJi9ziTuP0sKk4nrrxxIQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券