首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >大语言模型对齐技术 - RLHF训练方法

大语言模型对齐技术 - RLHF训练方法

作者头像
mixlab
发布2026-03-24 20:38:09
发布2026-03-24 20:38:09
870
举报

"abliteration"技术,通过识别LLM中的"拒绝方向"并正交化权重,解除模型审查机制。实验显示该方法会降低模型性能,但后续DPO微调可恢复表现,最终得到高性能无审查的8B模型NeuralDaredevil。

核心要点:

  1. 技术原理:对比有害/无害指令的残差流激活差异,定位"拒绝方向"(如Llama 3的审查机制)
  2. 关键操作:通过权重正交化永久消除该方向,使模型不再拒绝敏感请求
  3. 性能影响:直接应用会导致MMLU等指标下降(如Daredevil-8B分数降低)
  4. 修复方案:采用DPO偏好对齐微调(使用orpo-dpo-mix-40k数据集),恢复模型能力
  5. 伦理争议:暴露安全微调的脆弱性,需谨慎使用该技术
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-06-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 无界社区mixlab 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档