用户12246488 - 个人中心 - 腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

用户12246488

LV0

我关注的人

100_RLHF（人类反馈强化学习）原理与实践

在大型语言模型（LLM）的发展历程中，我们见证了模型从简单的文本生成工具，逐渐演变为能够理解复杂指令、进行多轮对话、甚至展示创造性思维的智能系统。然而，这一进化...

安全风信子 2025-11-162025-11-16 13:52:17

数据、原理、强化学习、模型、实践

99_监督微调：Alpaca数据集格式与实现

在大语言模型（LLM）的开发和应用中，微调是将通用预训练模型转化为特定任务专家的关键步骤。监督微调（Supervised Fine-Tuning, SFT）作为...

安全风信子 2025-11-162025-11-16 13:52:10

数据、优化、框架、模型、配置

107_DPO：直接偏好优化

在大型语言模型（LLM）的发展历程中，如何让模型输出与人类偏好保持一致一直是研究的核心挑战。从早期的监督微调（SFT）到基于人类反馈的强化学习（RLHF），再到...

安全风信子 2025-11-162025-11-16 14:11:36

函数、模型、数据、优化、强化学习

个人简介

暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市
加入社区时间：2026-03-12

个人成就

TA 很懒，什么都没有留下╮（╯＿╰）╭

关注了：1关注者：0