首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 人类反馈强化学习(Reinforcement Learning from Human Feedback, RLHF)

    RLHF是一种机器学习技术,它使智能体能够通过与环境的交互和接收来自人类提供的反馈来学习。在RLHF中,人类可以提供偏好、评价或直接指导以影响智能体的学习过程,帮助其理解哪些行为是期望的,哪些是不期望的。这种方法特别适用于那些难以定义精确奖励函数的任务,或者需要考虑人类主观偏好的任务。

    68310编辑于 2025-04-05
  • 来自专栏蓝里小窝

    阅读笔记|Reinforcement Learning with Feedback from Multiple Humans with Diverse Skills

    Maltz, “Mining policies from enterprise network configuration,” in Proceedings of the 9th ACM SIGCOMM

    37920编辑于 2023-10-15
  • 来自专栏常用算法专栏

    RLHF(人类反馈强化学习,Reinforcement Learning from Human Feedback)已死?RLHF 2.0用多智能体协同AI对齐

    在此背景下,基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)应运而生,并迅速成为行业标准。 2.1 RLAIF:用AI反馈替代人类反馈 RLAIF(Reinforcement Learning from AI Feedback),即“基于AI反馈的强化学习”,是迈向RLHF 2.0的第一步。 谷歌在2023年发表的论文《RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback》对此进行了系统性验证。 我们可以将其总结为以下三个层次: 反馈源层:从人类反馈(Human Feedback)进化到AI反馈(AI Feedback)和原则驱动(Principle-Driven)。

    33420编辑于 2026-05-03
  • 来自专栏彩铅的随笔博客

    Hands on Reinforcement Learning 15 Imitation Learning

    模仿学习(imitation learning)研究的便是这一类问题,在模仿学习的框架下,专家能够提供一系列状态动作对{(st,at)}\{(s_t,a_t)\}{(st​,at​)},表示专家在环境sts_tst​ 3 类: 行为克隆(behavior cloning,BC) 逆强化学习(inverse RL) 生成式对抗模仿学习(generative adversarial imitation learning 15.3 生成式对抗模仿学习 生成式对抗模仿学习(generative adversarial imitation learning,GAIL)是 2016 年由斯坦福大学研究团队提出的基于生成式对抗网络的模仿学习 import torch.nn.functional as F import torch.nn as nn import numpy as np import matplotlib.pyplot as plt from

    72450编辑于 2023-04-24
  • 来自专栏CreateAMind

    Hierarchical Imitation - Reinforcement Learning

    https://github.com/hoangminhle/hierarchical_IL_RL 效果:

    44730发布于 2018-07-20
  • 来自专栏深度强化学习实验室

    Deep Reinforcement Learning: An Overview

    《Deep Reinforcement Learning: An Overview》 该综述从强化学习,重要元素,核心机理和应用几个角度进行展开,也包含了一些学习资料,对学习RL的人来说无疑是一块甜蛋糕

    75310发布于 2019-11-21
  • 来自专栏彩铅的随笔博客

    Hands on Reinforcement Learning 01

    实现序贯决策的机器学习方法就是本书讨论的主题—强化学习(reinforcement learning)。

    56020编辑于 2023-04-04
  • 来自专栏CreateAMind

    Soft Reinforcement Learning 介绍

    Soft Reinforcement Learning (SRL) 是强化学习的一个新的范式,脱胎于最大熵强化学习 (Maximum Entropy Reinforcement Learning)。 相比之下,我称普通的强化学习为 Hard Reinforcement Learning (HRL)。 SRL可以称为maximum entropy reinforcement learning, 也可以称为 reinforcement learning with entropy regularization ,还可以称为 reinforcement learning with energy-based policies,侧重点各不一样,为了避免歧义,把握本质,另外为了引起业界对这个领域的兴趣,我给这个领域命名为 “Soft Reinforcement Learning”,可以翻译成“熵强化学习”。

    1.1K40发布于 2020-09-28
  • 来自专栏彩铅的随笔博客

    Hands on Reinforcement Learning 03

    gamma = 0.5 # 转化后的MRP的状态转移矩阵 P_from_mdp_to_mrp = [ [0.5, 0.5, 0.0, 0.0, 0.0], [0.5, 0.0, 0.5, ], [0.0, 0.0, 0.0, 0.5, 0.5], [0.0, 0.1, 0.2, 0.2, 0.5], [0.0, 0.0, 0.0, 0.0, 1.0], ] P_from_mdp_to_mrp = np.array(P_from_mdp_to_mrp) R_from_mdp_to_mrp = [-0.5, -1.5, -1.0, 5.5, 0] V = compute(P_from_mdp_to_mrp , R_from_mdp_to_mrp, gamma, 5) print("MDP中每个状态价值分别为\n", V) MDP中每个状态价值分别为 [[-1.22555411] [-1.67666232

    70410编辑于 2023-04-04
  • 来自专栏彩铅的随笔博客

    Hands on Reinforcement Learning 02

    2 多臂老虎机 2.1 简介 我们在第 1 章中了解到,强化学习关注智能体和环境交互过程中的学习,这是一种试错型学习(trial-and-error learning)范式。 多臂老虎机问题与强化学习的一大区别在于其与环境的交互并不会改变环境,即多臂老虎机的每次交互的结果和以往的动作无关,所以可看作无状态的强化学习(stateless reinforcement learning

    90810编辑于 2023-04-04
  • 来自专栏彩铅的随笔博客

    Hands on Reinforcement Learning Advanced Chapter

    Human-level control through deep reinforcement learning [J]. Playing atari with deep reinforcement learning [C]//NIPS Deep Learning Workshop, 2013. 8 DQN 改进算法 8.1 Deep reinforcement learning with double q-learning [C]// Proceedings of the AAAI conference on artificial Rainbow: Combining improvements in deep reinforcement learning [C]// Thirty-second AAAI conference on Continuous control with deep reinforcement learning [C]// International conference on learning representation

    1.3K20编辑于 2023-04-24
  • 来自专栏彩铅的随笔博客

    Hands on Reinforcement Learning Frontier Chapter

    Apprenticeship learning via inverse reinforcement learning [C] // Proceedings of the twenty-first international Conservative q-learning for offline reinforcement learning [J]. MOReL: Model-based offline reinforcement learning [J]. 本章将介绍目标导向的强化学习(goal-oriented reinforcement learning,GoRL)以及该类别下的一种经典算法 HER。 A survey and critique of multiagent deep reinforcement learning[J].

    1.1K10编辑于 2023-04-27
  • 来自专栏彩铅的随笔博客

    Hands on Reinforcement Learning Basic Chapter

    实现序贯决策的机器学习方法就是本书讨论的主题—强化学习(reinforcement learning)。 Reinforcement learning: an introduction [M]. Cambridge:MIT press, 2018. [2] OTTERLO M V, WIERING M. Reinforcement learning and markov decision processes [M]. 在这种情况下,智能体只能和环境进行交互,通过采样到的数据来学习,这类学习方法统称为无模型的强化学习(model-free reinforcement learning)。 根据是否具有环境模型,强化学习算法分为两种:基于模型的强化学习(model-based reinforcement learning)和无模型的强化学习(model-free reinforcement

    1.4K10编辑于 2023-04-07
  • 来自专栏CreateAMind

    Ray RLlib: Scalable Reinforcement Learning

    Ray comes with libraries that accelerate deep learning and reinforcement learning development: Ray Tune : Hyperparameter Optimization Framework Ray RLlib: Scalable Reinforcement Learning More Information Documentation Tutorial Blog Ray paper Ray HotOS paper Ray RLlib: Scalable Reinforcement Learning Ray RLlib is an RL

    77920发布于 2018-07-20
  • 来自专栏用户2133719的专栏

    Playing Atari with Deep Reinforcement Learning

    本文是对 DQN 原始论文 Playing Atari with Deep Reinforcement Learning 的详细解读。 该网络基于 Q-learning 算法的变种进行训练,通过随机梯度下降来更新权重。 Q-learning 的发散性问题,但还没有研究将其真正用于非线性控制。 完整的算法称为深度 Q-learning,如下图所示: ? 后记:在 Human-level control through deep reinforcement learning 中,作者对本文中的算法进行了改进,创建了另一个 Q-网络,其参数只会定期更新,并不会参与完整的迭代

    1.9K31发布于 2020-08-20
  • 来自专栏CreateAMind

    A Theory of State Abstraction for Reinforcement Learning

    A Theory of State Abstraction for Reinforcement Learning David Abel Department of Computer Science Brown University david_abel@brown.edu Abstract Reinforcement learning presents a challenging problem: agents must generalize experiences, efficiently explore the world, and learn from feedback that is delayed Learning (RL), drawing on Information Theory, Computational Complexity, and Computational Learning Theory My interest in this question stems from its foundational role in many aspects of learning and decision

    50610发布于 2019-04-28
  • 来自专栏CreateAMind

    The introduction of distributed reinforcement learning framework

    欢迎加入我们!

    43820发布于 2019-08-16
  • 来自专栏算法channel

    强化学习(Reinforcement Learning

    强化学习(Reinforcement Learning)是机器学习领域的三大分支之一,另外两种是我们熟知的监督学习,和非监督学习方法。 强化学习也广泛的存在于我们的日常生活工作中。

    1K10发布于 2020-02-21
  • 来自专栏CreateAMind

    根据人类反馈进行强化学习+ 代码

    Learning from Human Preferences [Christiano et al., 2017]. The system allows you to teach a reinforcement learning agent novel behaviors, even when both: The behavior learning directly from the hard-coded reward function. versus learning from the true reward. Human labels To train your agent based off of feedback from a real human, you’ll run two separate processes

    1.1K10发布于 2018-07-24
  • 来自专栏彩铅的随笔博客

    Hands on Reinforcement Learning 04 Dynamic programming

    动态规划(dynamic programming)是程序设计算法中非常重要的内容,能够高效解决一些经典问题,例如背包问题和最短路径规划。动态规划的基本思想是将待求解问题分解成若干个子问题,先求解子问题,然后从这些子问题的解得到目标问题的解。动态规划会保存已解决的子问题的答案,在求解目标问题的过程中,需要这些子问题答案时就可以直接利用,避免重复计算。本章介绍如何用动态规划的思想来求解在马尔可夫决策过程中的最优策略。

    64830编辑于 2023-04-06
领券