用户11888018 - 个人中心 - 腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

用户11888018

LV0

我关注的人

Q学习（Q-learning）简单理解「建议收藏」

本教程将通过一个简单但又综合全面的例子来介绍Q-learning 算法。该例子描述了一个利用无监督训练来学习未知环境的agent。假设一幢建筑里面有5个房间...

全栈程序员站长 2022-11-152022-11-15 11:31:38

【强化学习】深入理解：基于价值（Value）VS 基于策略（Policy）

强化学习（Reinforcement Learning，RL）大致可以分为两类：基于价值的算法和基于策略的算法、基于Actor-Criti...

不去幼儿园 2025-04-222025-04-22 09:36:38

函数、算法、优化、强化学习、policy

个人简介

暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市
加入社区时间：2025-10-28

个人成就

TA 很懒，什么都没有留下╮（╯＿╰）╭

关注了：2关注者：0