用户12032298 - 个人中心 - 腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

用户12032298

LV0

我关注的人

人类反馈强化学习（RLHF）

人类反馈强化学习（RLHF）是一种结合传统强化学习与人类主观判断的机器学习范式。其核心思想是通过人类对智能体行为的直接评价（如偏好排序、评分或修正），动态调整模...

jack.yang 2025-04-052025-04-05 11:04:57

优化、强化学习、模型、数据、系统

个人简介

暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市
加入社区时间：2026-02-02

个人成就

TA 很懒，什么都没有留下╮（╯＿╰）╭

关注了：2关注者：0