首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏绿巨人专栏

    强化学习读书笔记 - 06~07 - 时序差分学习(Temporal-Difference Learning)

    强化学习读书笔记 - 06~07 - 时序差分学习(Temporal-Difference Learning) 学习笔记: Reinforcement Learning: An Introduction

    1.9K60发布于 2018-05-17
  • 来自专栏Piper蛋窝

    时序差分学习 Temporal-Difference Learning (基于与动态规划 DP 、蒙特卡洛方法 MC 的对比)

    6.3 TD(0) 的最优性 DP、MC、TD对比 中文名 英文名 简称 动态规划 Dynamic Programming DP 蒙特卡洛方法 Monte Carlo Method MC 时序差分学习 Temporal-Difference

    1.3K10发布于 2020-11-19
  • 来自专栏绿巨人专栏

    强化学习读书笔记 - 11 - off-policy的近似方法

    有限马尔科夫决策过程 强化学习读书笔记 - 04 - 动态规划 强化学习读书笔记 - 05 - 蒙特卡洛方法(Monte Carlo Methods) 强化学习读书笔记 - 06~07 - 时序差分学习(Temporal-Difference

    92870发布于 2018-05-17
  • 来自专栏Python编程和深度学习

    强化学习(三)算法概述

    3、单步更新还是回合更新: 强化学习中的蒙特卡洛算法Monte-carlo是一种回合更新方法,在游戏开始之后需要等到回合结束才能基于整个回合对行为策略进行更新;而时序差分算法Temporal-difference

    66810发布于 2020-10-29
  • 来自专栏绿巨人专栏

    强化学习读书笔记 - 10 - on-policy控制的近似方法

    有限马尔科夫决策过程 强化学习读书笔记 - 04 - 动态规划 强化学习读书笔记 - 05 - 蒙特卡洛方法(Monte Carlo Methods) 强化学习读书笔记 - 06~07 - 时序差分学习(Temporal-Difference

    1.1K50发布于 2018-05-17
  • 来自专栏绿巨人专栏

    强化学习读书笔记 - 13 - 策略梯度方法(Policy Gradient Methods)

    有限马尔科夫决策过程 强化学习读书笔记 - 04 - 动态规划 强化学习读书笔记 - 05 - 蒙特卡洛方法(Monte Carlo Methods) 强化学习读书笔记 - 06~07 - 时序差分学习(Temporal-Difference

    2.2K80发布于 2018-05-17
  • 来自专栏绿巨人专栏

    强化学习读书笔记 - 09 - on-policy预测的近似方法

    有限马尔科夫决策过程 强化学习读书笔记 - 04 - 动态规划 强化学习读书笔记 - 05 - 蒙特卡洛方法(Monte Carlo Methods) 强化学习读书笔记 - 06~07 - 时序差分学习(Temporal-Difference

    1.2K60发布于 2018-05-17
  • 来自专栏绿巨人专栏

    强化学习读书笔记 - 08 - 规划式方法和学习式方法

    有限马尔科夫决策过程 强化学习读书笔记 - 04 - 动态规划 强化学习读书笔记 - 05 - 蒙特卡洛方法(Monte Carlo Methods) 强化学习读书笔记 - 06~07 - 时序差分学习(Temporal-Difference

    1.2K100发布于 2018-05-17
  • 来自专栏探物及理

    强化学习笔记11:工程师看强化学习

    Temporal-difference update:在游戏进行中每一步都在更新, 不用等待游戏的结束, 这样就能边玩边学习了。 On-policy:必须本人在场, 并且一定是本人边玩边学习。

    94420发布于 2020-09-10
  • 来自专栏绿巨人专栏

    强化学习总结

    6 时序差分方法(Temporal-Difference Learning) 时序差分方法的思想是: 在一个情节进行过程中学习。 比如:计算到公司的时间问题。 有限马尔科夫决策过程 强化学习读书笔记 - 04 - 动态规划 强化学习读书笔记 - 05 - 蒙特卡洛方法(Monte Carlo Methods) 强化学习读书笔记 - 06~07 - 时序差分学习(Temporal-Difference

    1.7K70发布于 2018-05-17
  • 来自专栏绿巨人专栏

    强化学习读书笔记 - 14 - 心理学

    有限马尔科夫决策过程 强化学习读书笔记 - 04 - 动态规划 强化学习读书笔记 - 05 - 蒙特卡洛方法(Monte Carlo Methods) 强化学习读书笔记 - 06~07 - 时序差分学习(Temporal-Difference

    88060发布于 2018-05-17
  • 来自专栏探物及理

    强化学习-4:无模型预测 model-free prediction

    {N(s_t)}\) \(V(S_t) \leftarrow V(S_t)+\alpha(G_t - V(S_t))\) 可以看到这里的\(\alpha\)和机器学习里面用的学习率是一个符号 差分法Temporal-Difference

    67520发布于 2020-08-25
  • 来自专栏嘘、小点声

    李宏毅的强化学习视频用于梳理翻阅(3)值

    时序差分的方法TD(Temporal-difference),仍然以Sutton的说明,清楚一点。

    57710发布于 2020-05-26
  • 来自专栏PPV课数据科学社区

    为你分享73篇论文解决深度强化学习的18个关键问题

    Fast gradient-descent methods for temporal-difference learning with linear function approximation. A convergent O( ´ n) algorithm for off-policy temporal-difference learning with linear function approximation An emphatic approach to the problem of off-policy temporal-difference learning.

    1.3K20发布于 2018-07-24
  • 来自专栏TechLead

    强化学习详解:理论基础与基础算法解析

    基本算法包括动态规划(Dynamic Programming, DP)、蒙特卡洛方法(Monte Carlo Methods)和时序差分(Temporal-Difference, TD)学习。 return V # 示例用法 V = every_visit_mc(env, num_episodes, gamma) print("Value Function:", V) 3.3 时序差分(Temporal-Difference

    1.2K10编辑于 2024-07-04
  • 来自专栏机器之心

    蒙特利尔大学开放MILA 2017夏季深度学习与强化学习课程视频(附完整PPT)

    3.Rich Sutton:Temporal-Difference Learning ? Richard S. Sutton 教授被认为是现代计算的强化学习创立者之一。 时间差分学习(Temporal-difference learning)是一种学习预测的方法,它广泛应用于强化学习来预测未来的奖励(Reward)或价值函数。

    1.2K120发布于 2018-05-08
  • 来自专栏数据派THU

    为你分享73篇论文解决深度强化学习的18个关键问题

    Fast gradient-descent methods for temporal-difference learning with linear function approximation. A convergent O( ´ n) algorithm for off-policy temporal-difference learning with linear function approximation An emphatic approach to the problem of off-policy temporal-difference learning.

    1.1K91发布于 2018-01-29
  • 来自专栏绿巨人专栏

    强化学习读书笔记 - 12 - 资格痕迹(Eligibility Traces)

    有限马尔科夫决策过程 强化学习读书笔记 - 04 - 动态规划 强化学习读书笔记 - 05 - 蒙特卡洛方法(Monte Carlo Methods) 强化学习读书笔记 - 06~07 - 时序差分学习(Temporal-Difference

    1.7K60发布于 2018-05-17
  • 来自专栏探物及理

    强化学习笔记4:无模型预测 model-free prediction

    \(v_{new} = v_{old} + \alpha(v_{target} - v_{old})\),括号里面是误差 可以看到这里的\(\alpha\)和机器学习里面用的学习率是一个符号 差分法Temporal-Difference

    67920发布于 2020-08-25
  • 来自专栏专知

    Richard S. Sutton经典图书:《强化学习导论》第二版(附PDF下载)

    5.6 增量编程 5.7 Off-Policy 蒙特卡洛控制 5.8 Discounting-aware 重要性采样 5.9 Per-decision 重要性采样 5.10 总结 第六章:时序差分学习(Temporal-Difference

    11.9K122发布于 2018-04-13
领券