首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏杨熹的专栏

    化学8: approximate reinforcement learning

    人类肯定不是这样学习的,我们有概括能力,所以也想让强化学习算法具有这样的能力,这时就可以用approximate reinforcement learning ? Learning 推荐阅读 历史技术博文链接汇总 http://www.jianshu.com/p/28f02bb59fe5 也许可以找到你想要的: [入门问题][TensorFlow][深度学习][强化学习 要开始连载强化学习系列啦! 今天开始我们一起来每天 2 分钟,get 强化学习的一个小知识吧!

    62110发布于 2018-11-21
  • 来自专栏全栈程序员必看

    8. 强化学习之——模仿学习

    online iteration,2011】 Inverse RL & GAIL Inverse RL GAIL Connection between IRL & GAIL 改进模仿学习的性能 模仿学习与强化学习结合 作为一项辅助的损失函数 一个有趣的 Case Study—— motion imitation IL 本身存在的问题 总结 ---- 课程大纲 模仿学习介绍 行为克隆 BC 和 DAGGER 算法 逆强化学习 IRL 和 生成对抗模仿学习GAIL 改进模仿学习的性能 把模仿学习和强化学习结合 Introduction & Behavioral Cloning 从最简单的行为克隆方法开始介绍:比较简单的思想就是把策略的学习当做有监督的学习来进行 所以下面我们就想把模仿学习与强化学习结合起来 模仿学习与强化学习结合 模仿学习与强化学习的各自的特点对比 怎么把两者结合起来,既有 Demonstration 又有 Rewards? 2016 Silver】 ②应用于 Starcraft2【DeepMind工作】 Pretrain and Finetune 的问题: ①在第三步的时候我们之前获得的比较好的 Policy 用强化学习来训练的时候

    2K30编辑于 2022-10-02
  • 来自专栏量子化学

    《量子化学软件基础》习题(8

    REF1中胞嘧啶的CASPT2计算采用了两种不同的活性空间:a.活性空间包含10个电子和8个π轨道(在Cs点群下,8个π轨道的不可约表示都是A’’);b.活性空间包含14个电子和10个空间轨道(除a中的 8个π轨道外,又加入了两个属于点群Cs的A’不可约表示的孤对轨道n。 仍以处理活性空间CASSCF(10,8) 为例说明输入文件写法。 的计算中此选项需设置为“8 0”(即冻结属于不可约表示A’的8个轨道,它们都是碳、氮、氧的1s2电子);若都不想设置冻芯近似,则ORCA输入文件需设置关键字NoFrozenCore,而BDF无需为此设置参数 仍以活性空间CASSCF(10,8) 为例说明输入文件写法。

    1.3K30编辑于 2022-12-07
  • 来自专栏全栈程序员必看

    【强化学习纲要】8 模仿学习「建议收藏」

    【强化学习纲要】8 模仿学习 8.1 模仿学习概要 8.2 Behavioral cloning and DAGGER 8.3 Inverse RL and GAIL 8.4 进一步改进模仿学习的模型 8.5 模仿学习和强化学习结合 8.6 Case studies 周博磊《强化学习纲要》 学习笔记 课程资料参见: https://github.com/zhoubolei/introRL. 在强化学习里面是给定了环境,也给定了奖励函数,通过强化学习可以对价值函数以及决策函数进行参数化来优化参数。 右边是逆强化学习。 如果纯粹通过强化学习trial and error的方法,去尝试的话很难学到好的policy。 得到策略网络后,再进一步用强化学习来改进初步得到的策略网络。

    1.2K10编辑于 2022-10-02
  • 来自专栏探物及理

    化学习笔记8:整合学习和规划

    没有模型 从经验中学习,得到价值函数 Model-based 有模型 根据模型规划价值函数 本讲指出解决这类问题的关键在于“前向搜索”和“采样”,通过将基于模拟的前向搜索与各种不依赖模型的强化学习算法结合

    1K20发布于 2020-08-31
  • 来自专栏用户6881919的专栏

    论文阅读8-----基于强化学习的推荐系统

    With the recent prevalence of Reinforcement Learning (RL), there have been tremendous interests in developing RL-based recommender systems.

    1.3K30发布于 2021-01-18
  • 来自专栏AI科技评论

    动态 | ACL 2018 首日:8 大 tutorial,深度强化学习最受关注

    (注:4 *8 个小时的 tutorials,上千张 PPT,相信一定会为大家开启新世界的大门) ? 然而,由于语言往往是离散的,所有句子的空间都是无限的,因此在将 NLP 任务构想为强化学习问题时存在许多挑战。在这次 tutorial 上,将介绍 NLP 中一些实用的 DRL 解决方案。 我们描述了在 NLP 中设计深度强化学习算法方面的最新进展,特别关注于生成、对话和信息提取。 最后,我们讨论了这些算法成功及失败的原因,旨在提供一些关于深度强化学习的实用建议,以解决实际的 NLP 问题。 Tutorial 8:Multi-lingual Entity Discovery and Linking 地址:https://sites.google.com/view/xlingedl/home/

    58430发布于 2018-07-27
  • 来自专栏数据魔术师

    化学习读书笔记(8)上| 用表格方法规划和学习

    本讲为需要环境模型的model-based强化学习方法(如DP和启发式搜索)和不需要环境模型的model-free方法(比如MC和TD)提供一个统一的论述框架。 (计划空间方法很难有效地应用于强化学习中关注的随机序列决策问题,因此不再进一步考虑) 本章要描述的统一框架是指所有的状态空间计划算法都共享一种架构,同样适用于本书讲到的学习算法。 前者称为模型学习model-learning(间接法),后者称为直接强化学习direct reinforcement learning(直接法)。 ? 最后,通过将强化学习方法应用于模拟经验来实现规划。一般来说强化学习算法都可以应用在仿真经验和真实经验中。学习和规划的有很多的相同点,唯一的不同是经验的来源。 小结 本讲为需要环境模型的model-based强化学习方法和不需要环境模型的model-free方法提供一个统一的论述框架。Planning 需要环境模型(model)。

    1.3K30发布于 2019-09-17
  • 来自专栏机器之心

    在GSM8K上比GRPO快8倍!厦大提出CPPO,让强化学习快如闪电

    机器之心报道 编辑:Panda DeepSeek-R1 的成功离不开一种强化学习算法:GRPO(组相对策略优化)。 为了保证训练的稳定性,GRPO 还会计算一组完成结果的策略模型、参考模型和旧策略模型的预测概率之比作为策略目标函数的一部分,这又会进一步提升强化学习的训练开销。 那么,问题来了:在这个强化学习过程中,每个完成结果的贡献都一样吗? 近日,厦门大学纪荣嵘团队研究发现,每个完成结果的贡献与其相对优势有关。也就是说,每个完成结果对策略模型训练的贡献并不相等。 在 GSM8K 上的结果如表 1 所示,CPPO 在准确度和加速比上都明显优于 GRPO。值得注意的是,CPPO 在各种剪枝率下都达到了与 GRPO 相当甚至更高的准确度。 图 4 展示了在 GSM8K 和 MATH 数据集上训练时的奖励曲线。

    44410编辑于 2025-04-02
  • 来自专栏数据派THU

    90 后学霸博士 8 年进击战:用机器学习为化学研究叠 BUFF

    评估不确定性时,科研人员采用了支持蒙特卡洛 dropout 的时间卷积神经网络 (temporal convolutional neural network) ,并在 note S8 中展示用这个模型获得的结果 利用机器学习模型预测 未来 2 分钟、1 小时、2 小时的胺排放量  90 后学霸博士,深耕化学 8 年 本篇论文由洛桑联邦理工学院基础科学学院的 Berend Smit 教授和苏格兰赫瑞瓦特大学碳解决方案研究中心教授 该论文的一作 Kevin Maik Jablonka Kevin 本科就读于德国慕尼黑工业大学化学专业,2017 年本科毕业后,Kevin 进入瑞士洛桑联邦理工学院继续硕士和博士学习,在化学领域继续深造 从 2014 年至 2022 年,Kevin 用了 8 年时间建立了对化学化学工程的深刻理解,期间还通过对应用数据科学、机器学习的学习,将化学研究与人工智能进行融合,提升了化学工程领域研究的效率和准确度 诚如多位化学领域的资深人士所说,机器学习在化学及过程工程 (process engineering) 领域,可能产生比计算机视觉领域更大的影响。

    32610编辑于 2023-03-29
  • 来自专栏HyperAI超神经

    90 后学霸博士 8 年进击战:用机器学习为化学研究叠 BUFF

    评估不确定性时,科研人员采用了支持蒙特卡洛 dropout 的时间卷积神经网络 (temporal convolutional neural network) ,并在 note S8 中展示用这个模型获得的结果 8 年 本篇论文由洛桑联邦理工学院基础科学学院的 Berend Smit 教授和苏格兰赫瑞瓦特大学碳解决方案研究中心教授 Susana Garcia 共同领导的科研小组发布。 该论文的一作 Kevin Maik Jablonka Kevin 本科就读于德国慕尼黑工业大学化学专业,2017 年本科毕业后,Kevin 进入瑞士洛桑联邦理工学院继续硕士和博士学习,在化学领域继续深造 从 2014 年至 2022 年,Kevin 用了 8 年时间建立了对化学化学工程的深刻理解,期间还通过对应用数据科学、机器学习的学习,将化学研究与人工智能进行融合,提升了化学工程领域研究的效率和准确度 诚如多位化学领域的资深人士所说,机器学习在化学及过程工程 (process engineering) 领域,可能产生比计算机视觉领域更大的影响。

    41640编辑于 2023-02-27
  • 来自专栏云计算行业

    化学

    阅读本文大约需要5分钟 一、强化学习的模型 强化学习能够实现很多的任务,这些任务目标往往可以归纳化为最大化长期奖励、最小化长期惩罚。 三、深度学习给强化学习带来的新机会 最近几年的强化学习非常的热门,出现了一些脍炙人口的应用,他们都是深度学习和强化学习强强联合的产物,无论是基于价值的强化数据算法,还是基于策略梯度的强化学习算法,都可以脱离于深度学习存在 2013年,深度学习和强化学习结合起来,结合成了的深度强化学习算法。那么深度强化学习算法诞生以后,在强化训练领域马上就有突飞猛进的发展,解决问题的困难程度大大超过之前的非深度强化算法。 深度强化学习算法为什么常常能够比非深度强化学习算法更厉害呢,这是因为用了深度学习的强化学习方法可以求得更加复杂的解,能在更加困难的问题上得到更好的性能。 接下来推荐下我的新书《强化学习原理与Python实现》,这里面的既包括了经典的非深度强化学习算法,也包括深度强化学习算法。

    61320编辑于 2023-05-29
  • 来自专栏有三AI

    【强化学习】从强化学习基础概念开始

    在开始探索强化学习的诸多算法之前,我们先来了解一下它所涉及到的具体概念。这些概念将作为基石,一直陪伴着我们的学习之旅。 为了能够将这些概念熟记在心,我们这一期做成强化学习概念小卡片,一张一张给大家展示和帮助大家理解。 在强化学习中,环境指排除智能体之外的所有组成。 (3) 智能体 智能体是强化学习中的主要研究对象,我们希望智能体能够通过环境的检验来实现系统的目标。 (4) 交互 交互专指智能体与环境的交互。 (8) 试错 试错是早期强化学习的主要方向。通过试错来探索最优策略。目前强化学习研究的方向转为奖励函数的优化。 (9) 记忆 智能体对过往经验的总结归纳和采用的方式。 3 强化学习中的六类问题 虽然强化学习给出了一个非常通用的解决问题的思路,但是面对具体问题,在不同场景下,强化学习又会有不同的侧重。

    80020发布于 2019-07-27
  • 来自专栏NowlNowl_AI

    化学习第1天:强化学习概述

    介绍 强化学习是机器学习中一种独特的存在,以其独特的思想逐渐发展为一门独立的学科,强化学习适用的场景是:一个学习主体根据环境做出不同的决策,得到相应的奖励与惩罚来改进决策 它既不是监督学习也不是无监督学习 ,从这段描述中也可以看出,它不适合用来进行回归或者聚类等任务 强化学习要素 强化学习中有一些重要的概念,我们接下来一一介绍他们,如果有些不理解不要着急,我们会举一个具体例子来解释 智能体:智能体是强化学习中的主体 环境搭建:gym gym是一个集成了一些常用环境的库,我们可以通过调用这个环境库来快速入门强化学习,在python命令行中执行命令安装 ! plt.imshow(image) plt.show() 这段代码完成了一些初始设置,具体作用见代码注释,运行结果如下图 ​ 环境信息查看 我们导入环境后要查看一些环境的信息,还记得我们最开始说的强化学习要素吗 学习了强化学习的基本概念 通过一个简单示例直观感受了强化学习的基本流程 学习了将图片动画化的技术

    65320编辑于 2024-01-18
  • 来自专栏智药邦

    JCIM|利用化学语言模型导航超大虚拟化学空间

    化学语言模型为探索这些广阔的化学空间提供了一种新方法。然而,现有的模型在生成的化合物的合成可行性和目标特性优化方面仍存在不足。 图1: PoE化学语言模型示意图 随着计算化学的飞速发展,虚拟化学空间的规模呈现指数增长。超大规模的化学空间为药物研发提供了无数的化合物候选,但完全筛选这些空间几乎是不可能的。 计算复杂度高:随着虚拟化学库规模的增加,筛选计算资源消耗也随之线性增长,难以快速评估化合物的药效和物理化学特性。 2. 在PoE化学语言模型中,研究者结合了以下三种模型: 1. 预训练模型:该模型在超大化学空间上进行训练,提供对整个空间的全面理解。它可以为生成化合物提供基本的化学结构。 2. 本文提出的PoE化学语言模型,通过结合预训练模型、专家模型和反专家模型,实现了对超大虚拟化学空间的高效导航和探索。

    26610编辑于 2024-11-01
  • 来自专栏WOLFRAM

    Wolfram|Alpha 化学分步解答方案:化学反应

    如果您正在学习化学,或者正在学习要求化学先修课程的学科,那么您就会知道所需教科书的价格是多少。为了解决这个问题,化学教育界已经开发了开放的教育资源,以提供免费的化学教科书。 在接下来的几周中,我们将探索中学生、高中生和大学生在化学课程和期末考试中遇到的一些热门主题:化学反应、结构和键合、化学溶液,最后是量子化学。阅读例如化学反应中的问题及其分步解决方案! 平衡化学方程式 化学的基本方面是平衡化学方程式。如果化学方程式是表达化学过程的语言,那么平衡化学方程式就是相应的语法。分步解决方案将带您逐步了解强大的代数方法,以识别化学计量系数。 化学转化 在几乎所有的化学作业或研究问题中,都会出现化学转化。这样,逐步解决方案可用于在摩尔、质量、体积、分子和原子之间转换。提供了单位转换和尺寸分析的详细信息。 还有更多化学反应 无论您是为即将来临的期末考试而学习,为家庭作业困惑还是只是想复习一下,化学反应都是Wolfram | Alpha知识库涵盖的许多化学主题之一。

    74120发布于 2020-05-21
  • 来自专栏机器学习算法原理与实践

    化学习(十九) AlphaGo Zero强化学习原理

    这里我们在前一节MCTS的基础上,讨论下DeepMind的AlphaGo Zero强化学习原理。      同时,为了提供更多的信息,输入的棋局状态不光只有当前的棋局状态,包括了黑棋白棋各自前8步对应的棋局状态。 里面包含黑棋和白棋的最近8步行棋状态和当前行棋方的信息。     接着我们看看神经网络的输出,神经网络的输出包括策略部分和价值部分。对于策略部分,它预测当前各个行棋点落子的概率。 当然这类强化学习算法只对特定的这类完全状态可见,信息充分的问题有效,遇到信息不对称的强化学习问题,比如星际,魔兽之类的对战游戏问题,这个算法就不那么有效了。 要推广AlphaGo Zero的算法到大多数普通强化学习问题还是很难的。因此后续强化学习算法应该还有很多发展的空间。     

    2.1K50发布于 2019-04-01
  • 来自专栏深度学习

    【深度学习】强化学习(五)深度强化学

    一、强化学习问题   强化学习的基本任务是通过智能体与环境的交互学习一个策略,使得智能体能够在不同的状态下做出最优的动作,以最大化累积奖励。 上述概念可详细参照:【深度学习】强化学习(一)强化学习定义 4、马尔可夫决策过程   为了简化描述,将智能体与环境的交互看作离散的时间序列。 关于马尔可夫决策过程可详细参照:【深度学习】强化学习(二)马尔可夫决策过程 5、强化学习的目标函数   强化学习的目标是通过学习一个良好的策略来使智能体在与环境的交互中获得尽可能多的平均回报。 关于目标函数可详细参照:【深度学习】强化学习(三)强化学习的目标函数 6、值函数   在强化学习中,为了评估策略 \pi 的期望回报,引入了值函数的概念,包括状态值函数和状态-动作值函数。    关于值函数可详细参照:【深度学习】强化学习(四)强化学习的值函数 7、深度强化学习   深度强化学习是将强化学习和深度学习结合在一起,用强化学习来定义问题和优化目标,用深度学习来解决状态表示、策略表示和值函数建模等问题

    1.4K10编辑于 2024-07-30
  • 来自专栏小明的博客

    化学

    化学习(reinforcement learning.)是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。 强化学习的本质是学习最优的序贯决策。

    49330编辑于 2022-09-05
  • 来自专栏LhWorld哥陪你聊算法

    【强化学习篇】--强化学习案例详解一

    转变为如下图:先构造奖励,达到5,即能够走得5的action则说明奖励比较高设置成100,没有达到5说明奖励比较低,设置成0。

    1.4K10发布于 2018-09-13
领券