"abliteration"技术,通过识别LLM中的"拒绝方向"并正交化权重,解除模型审查机制。实验显示该方法会降低模型性能,但后续DPO微调可恢复表现,最终得到高性能无审查的8B模型NeuralDaredevil。
核心要点:
本文分享自 无界社区mixlab 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!