首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >强化学习读书笔记 - 01 - 强化学习的问题

强化学习读书笔记 - 01 - 强化学习的问题

作者头像
绿巨人
修改2025-09-26 10:54:34
修改2025-09-26 10:54:34
8370
举报
文章被收录于专栏:绿巨人专栏绿巨人专栏

强化学习读书笔记 - 01 - 强化学习的问题

Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016

什么是强化学习(Reinforcement Learning)

强化学习是一种通过交互的目标导向学习方法,或者说是计算方向。 不同于监督学习和非监督学习。 监督学习是通过已标签的数据,学习分类的逻辑。 非监督学习是通过未标签的数据,找到其中的隐藏模式。

强化学习的特点:

  • 符合行为心理学。
  • 一种探索(exploration)和采用(exploitation)的权衡 强化学习一面要采用(exploitation)已经发现的有效行动, 另一方面也要探索(exploration)那些没有被认可的行动,已找到更好的解决方案。
  • 考虑整个问题而不是子问题
  • 通用AI

强化学习的四元素

  • 政策 (policy) 环境的感知状态到行动的映射方式。
  • 奖赏信号 (reward signal) 定义强化学习问题的目标。
  • 评估方法 (value function) 一个状态的价值就是从这个状态开始,期望在未来获得的奖赏。是指一种长期目标。
  • 环境模型 (optional a model of environment) 模拟环境的行为。

强化学习的历史

两条主线:

  • 起源于动物学习心理学的试错法(trial-and-error)。
  • 优化控制(optimal control) - 评估方法(value function),动态编程(dynamic programming),差分计算(temporal difference)。

参照

  • Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2017-02-25 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 强化学习读书笔记 - 01 - 强化学习的问题
    • 什么是强化学习(Reinforcement Learning)
      • 强化学习的特点:
      • 强化学习的四元素
      • 强化学习的历史
    • 参照
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档