AI-Frontiers
小白也能看懂的RLHF-PPO:原理篇
原创
关注作者
腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
AI-Frontiers
社区首页
>
专栏
>
小白也能看懂的RLHF-PPO:原理篇
小白也能看懂的RLHF-PPO:原理篇
AI-Frontiers
关注
发布于 2025-12-16 17:25:15
发布于 2025-12-16 17:25:15
410
0
举报
概述
这篇将从强化学习中的核心元素与LLM任务的对应关系开始,逐步引入RLHF解决了SFT中的什么问题。再讲解RLHF具体是怎么做的,如Reward Model(奖励模型)、Actor Model (演员模型)、Reference Model(参考模型)和Critic Model(评论家模型)这些模型各自的运行机制,以及它们是如何协作完成RLHF的,重点讨论了PPO算法的Actor模型、Ctritic模
文章被收录于专栏:
LLM-RL
LLM-RL
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系
cloudcommunity@tencent.com
删除。
深度强化学习
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系
cloudcommunity@tencent.com
删除。
深度强化学习
评论
登录
后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档
0
0
0
推荐