搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏量子化学
《量子化学软件基础》习题（7）
注意，即使是Pople开发的6-31类型基组，BDF、ORCA等量子化学程序也使用5d基函数。
1.2K20编辑于 2022-12-07
来自专栏探物及理
强化学习笔记7：策略梯度 Policy Gradient
之前的策略优化，用的基本都是\(\epsilon\)-greedy的policy improve方法，这里介绍policy gradient法，不基于v、q函数
1.3K20发布于 2020-08-31
来自专栏数据派THU
7个流行的强化学习算法及代码实现
来源：Deephub Imba 本文约4500字，建议阅读5分钟本文介绍了流行的强化学习算法的发展和改进。目前流行的强化学习算法包括 Q-learning、SARSA、DDPG、A2C、PPO、DQN 和 TRPO。 2、SARSA SARSA：SARSA 是一种无模型、基于策略的强化学习算法。 7、TRPO TRPO （Trust Region Policy Optimization）是一种无模型的策略算法，它使用信任域优化方法来更新策略。它在具有高维观察和连续动作空间的环境中特别有用。总结以上就是我们总结的7个常用的强化学习算法，这些算法并不相互排斥，通常与其他技术(如值函数逼近、基于模型的方法和集成方法)结合使用，可以获得更好的结果。编辑：王菁校对：林亦霖
95940编辑于 2023-04-18
来自专栏用户6881919的专栏
论文阅读7-----基于强化学习的推荐系统
In this paper, we propose a novel Deep Reinforcement Learning framework for news recommendation.
72130发布于 2021-01-18
来自专栏算法channel
第二篇：强化学习中的7个基础概念
你好，我是zhenguo（郭震）这是强化学习第二篇：强化学习7个基础概念在强化学习中，智能体需要在不断尝试和错误的过程中学习，通过观察环境的反馈（奖励或惩罚）来调整自己的行为，从而逐步改进策略。强化学习常见的概念，结合迷宫游戏给大家阐述一下。，它在迷宫这个环境中玩耍：第二，环境，在这里就是迷宫，迷宫环境里有：初始出发点，白色方块表示可以通行的格子，黑色格子表示障碍物，绿点表示迷宫出口，迷宫的长为8个格子，宽为8个格子，这些元素组成了强化学习的环境以上就是强化学习中，最重要的7个概念，希望对你有帮助
50020编辑于 2023-08-08
来自专栏胡琦
【Copy攻城狮日志】强化学习7天打卡营学习笔记
主要整理这7天来的学习笔记，7天深入一门新技术很难，但仅仅只是稍微了解一下，7天时间远远足够！【文末福利：领取免费算力卡】 ↑开局一张图，故事全靠编。那强化学习有什么用呢？通过课程我了解到强化学习的应用很广泛，如游戏（打过人机吗？）这里推荐强化学习的经典环境库GYM和强化学习框架PARL。 DDPG实践代码总结 7天下来，我好像做了一场梦，梦醒时分什么都不记得了。虽然视频认真看了，代码认真Copy了，作业认真炼丹了，结果屡屡碰壁，直到放弃。最后，附上免费算力卡： 5a7ba445224144248231eed0e3348c10 f9417acf24aa4e9fa37cfae461c0896d 1c65596a41e34920bf8a13e0aecd9718
56530发布于 2021-09-09
来自专栏数据魔术师
强化学习读书笔记（7）| n步自举（n-step Bootstrapping）
由于蒙特卡洛算法(MC)和一步差分算法(one-step TD) 都了采取比较极端的形式，所以这两种方法都不可能永远是最优的，最佳的方法往往就是介于TD和MC之间。n步Bootstrapping是MC和TD(0)的综合。随着对参数n的调整，我们可以看到TD是如何过渡到MC的。
2.7K20发布于 2019-09-09
来自专栏机器之心
使用DeepSeek的GRPO，7B模型只需强化学习就能拿下数独
选自hrishbh.com 作者：Hrishbh Dalal 编译：Panda、蛋酱没有任何冷启动数据，7B 参数模型能单纯通过强化学习学会玩数独吗？这就是我最近的实验的切入点 —— 通过强化学习教语言模型解决数独问题。教语言模型玩数独的难点对语言模型来说，数独有自己独特的难点。实验方法我决定探索强化学习（尤其是 GRPO）能否让语言模型变成数独求解器。这里会从基础指令微调版模型开始，单纯使用强化学习。 4、强化学习可以教授结构化思维尽管困难重重，GRPO 还是成功地教会了 7B 模型保持正确的格式并开始解题，这些技能并不是语言模型所固有的。
58600编辑于 2025-03-11
来自专栏云计算行业
强化学习
阅读本文大约需要5分钟一、强化学习的模型强化学习能够实现很多的任务，这些任务目标往往可以归纳化为最大化长期奖励、最小化长期惩罚。三、深度学习给强化学习带来的新机会最近几年的强化学习非常的热门，出现了一些脍炙人口的应用，他们都是深度学习和强化学习强强联合的产物，无论是基于价值的强化数据算法，还是基于策略梯度的强化学习算法，都可以脱离于深度学习存在 2013年，深度学习和强化学习结合起来，结合成了的深度强化学习算法。那么深度强化学习算法诞生以后，在强化训练领域马上就有突飞猛进的发展，解决问题的困难程度大大超过之前的非深度强化算法。深度强化学习算法为什么常常能够比非深度强化学习算法更厉害呢，这是因为用了深度学习的强化学习方法可以求得更加复杂的解，能在更加困难的问题上得到更好的性能。接下来推荐下我的新书《强化学习原理与Python实现》，这里面的既包括了经典的非深度强化学习算法，也包括深度强化学习算法。
61320编辑于 2023-05-29
来自专栏有三AI
【强化学习】从强化学习基础概念开始
为了能够将这些概念熟记在心，我们这一期做成强化学习概念小卡片，一张一张给大家展示和帮助大家理解。在强化学习中，环境指排除智能体之外的所有组成。 (3) 智能体智能体是强化学习中的主要研究对象，我们希望智能体能够通过环境的检验来实现系统的目标。 (4) 交互交互专指智能体与环境的交互。 (7) 策略策略是说智能体在允许的动作集合中，通过对动作进行组合，先后使用次序的调整，从而探索出不同的使用动作组合和次序来实现目标。换言之，如何从当前的状态，通过动作，转换到最佳的下一个状态。 (8) 试错试错是早期强化学习的主要方向。通过试错来探索最优策略。目前强化学习研究的方向转为奖励函数的优化。 (9) 记忆智能体对过往经验的总结归纳和采用的方式。 3 强化学习中的六类问题虽然强化学习给出了一个非常通用的解决问题的思路，但是面对具体问题，在不同场景下，强化学习又会有不同的侧重。
80020发布于 2019-07-27
来自专栏NowlNowl_AI
强化学习第1天：强化学习概述
介绍强化学习是机器学习中一种独特的存在，以其独特的思想逐渐发展为一门独立的学科，强化学习适用的场景是：一个学习主体根据环境做出不同的决策，得到相应的奖励与惩罚来改进决策它既不是监督学习也不是无监督学习，从这段描述中也可以看出，它不适合用来进行回归或者聚类等任务强化学习要素强化学习中有一些重要的概念，我们接下来一一介绍他们，如果有些不理解不要着急，我们会举一个具体例子来解释智能体：智能体是强化学习中的主体环境搭建：gym gym是一个集成了一些常用环境的库，我们可以通过调用这个环境库来快速入门强化学习，在python命令行中执行命令安装 ! plt.imshow(image) plt.show() 这段代码完成了一些初始设置，具体作用见代码注释，运行结果如下图环境信息查看我们导入环境后要查看一些环境的信息，还记得我们最开始说的强化学习要素吗学习了强化学习的基本概念通过一个简单示例直观感受了强化学习的基本流程学习了将图片动画化的技术
65320编辑于 2024-01-18
来自专栏智药邦
JCIM｜利用化学语言模型导航超大虚拟化学空间
化学语言模型为探索这些广阔的化学空间提供了一种新方法。然而，现有的模型在生成的化合物的合成可行性和目标特性优化方面仍存在不足。图1: PoE化学语言模型示意图随着计算化学的飞速发展，虚拟化学空间的规模呈现指数增长。超大规模的化学空间为药物研发提供了无数的化合物候选，但完全筛选这些空间几乎是不可能的。计算复杂度高：随着虚拟化学库规模的增加，筛选计算资源消耗也随之线性增长，难以快速评估化合物的药效和物理化学特性。 2. 在PoE化学语言模型中，研究者结合了以下三种模型： 1. 预训练模型：该模型在超大化学空间上进行训练，提供对整个空间的全面理解。它可以为生成化合物提供基本的化学结构。 2. 本文提出的PoE化学语言模型，通过结合预训练模型、专家模型和反专家模型，实现了对超大虚拟化学空间的高效导航和探索。
26610编辑于 2024-11-01
来自专栏机器学习算法原理与实践
强化学习(十九) AlphaGo Zero强化学习原理
　　　　在强化学习(十八) 基于模拟的搜索与蒙特卡罗树搜索(MCTS)中，我们讨论了MCTS的原理和在棋类中的基本应用。这里我们在前一节MCTS的基础上，讨论下DeepMind的AlphaGo Zero强化学习原理。　　　　当然这类强化学习算法只对特定的这类完全状态可见，信息充分的问题有效，遇到信息不对称的强化学习问题，比如星际，魔兽之类的对战游戏问题，这个算法就不那么有效了。要推广AlphaGo Zero的算法到大多数普通强化学习问题还是很难的。因此后续强化学习算法应该还有很多发展的空间。　　　　至此强化学习系列就写完了，之前预计的是写三个月，结果由于事情太多，居然花了大半年。但是总算还是完成了，没有烂尾。生活不易，继续努力！（欢迎转载，转载请注明出处。
2.1K50发布于 2019-04-01
来自专栏WOLFRAM
Wolfram|Alpha 化学分步解答方案：化学反应
如果您正在学习化学，或者正在学习要求化学先修课程的学科，那么您就会知道所需教科书的价格是多少。为了解决这个问题，化学教育界已经开发了开放的教育资源，以提供免费的化学教科书。在接下来的几周中，我们将探索中学生、高中生和大学生在化学课程和期末考试中遇到的一些热门主题：化学反应、结构和键合、化学溶液，最后是量子化学。阅读例如化学反应中的问题及其分步解决方案！平衡化学方程式化学的基本方面是平衡化学方程式。如果化学方程式是表达化学过程的语言，那么平衡化学方程式就是相应的语法。分步解决方案将带您逐步了解强大的代数方法，以识别化学计量系数。化学转化在几乎所有的化学作业或研究问题中，都会出现化学转化。这样，逐步解决方案可用于在摩尔、质量、体积、分子和原子之间转换。提供了单位转换和尺寸分析的详细信息。还有更多化学反应无论您是为即将来临的期末考试而学习，为家庭作业困惑还是只是想复习一下，化学反应都是Wolfram | Alpha知识库涵盖的许多化学主题之一。
74120发布于 2020-05-21
来自专栏深度学习
【深度学习】强化学习（五）深度强化学习
一、强化学习问题强化学习的基本任务是通过智能体与环境的交互学习一个策略，使得智能体能够在不同的状态下做出最优的动作，以最大化累积奖励。上述概念可详细参照：【深度学习】强化学习（一）强化学习定义 4、马尔可夫决策过程为了简化描述，将智能体与环境的交互看作离散的时间序列。关于马尔可夫决策过程可详细参照：【深度学习】强化学习（二）马尔可夫决策过程 5、强化学习的目标函数强化学习的目标是通过学习一个良好的策略来使智能体在与环境的交互中获得尽可能多的平均回报。关于目标函数可详细参照：【深度学习】强化学习（三）强化学习的目标函数 6、值函数在强化学习中，为了评估策略 \pi 的期望回报，引入了值函数的概念，包括状态值函数和状态-动作值函数。关于值函数可详细参照：【深度学习】强化学习（四）强化学习的值函数 7、深度强化学习深度强化学习是将强化学习和深度学习结合在一起，用强化学习来定义问题和优化目标，用深度学习来解决状态表示、策略表示和值函数建模等问题
1.4K10编辑于 2024-07-30
来自专栏小明的博客
强化学习
强化学习(reinforcement learning.)是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。强化学习的本质是学习最优的序贯决策。
49330编辑于 2022-09-05
来自专栏LhWorld哥陪你聊算法
【强化学习篇】--强化学习案例详解一
转变为如下图：先构造奖励，达到5，即能够走得5的action则说明奖励比较高设置成100，没有达到5说明奖励比较低，设置成0。
1.4K10发布于 2018-09-13
来自专栏学习
机器学习——强化学习与深度强化学习
强化学习与深度强化学习：从基础到深入引言近年来，强化学习（Reinforcement Learning, RL）在多个领域取得了巨大的进展。本篇文章将深入探讨强化学习与深度强化学习的基本原理、常见算法以及应用场景，旨在为读者提供一个详尽的学习路线图。 1. 强化学习基础 1.1 什么是强化学习强化学习是一种让智能体（Agent）通过与环境（Environment）交互，获得奖励（Reward）来学习如何采取行动的学习方法。深度强化学习的应用 3.1 游戏 AI 深度强化学习被广泛应用于游戏 AI 中，最著名的例子莫过于 DeepMind 开发的 AlphaGo，它通过深度强化学习击败了人类围棋冠军。未来，随着算法的改进和计算能力的提升，深度强化学习将在更多领域取得突破。本篇文章介绍了强化学习和深度强化学习的基础理论、常见算法及其应用，希望能够帮助读者更好地理解这一领域。
3.4K10编辑于 2024-10-09
来自专栏云+直播
强化学习
点击观看大咖分享强化学习的模型强化学习能够实现很多的任务，这些任务目标往往可以归纳化为最大化长期奖励、最小化长期惩罚。 ---- 深度学习给强化学习带来的新机会最近几年的强化学习非常的热门，出现了一些脍炙人口的应用，他们都是深度学习和强化学习强强联合的产物，无论是基于价值的强化数据算法，还是基于策略梯度的强化学习算法， 2013年，深度学习和强化学习结合起来，结合成了的深度强化学习算法。那么深度强化学习算法诞生以后，在强化训练领域马上就有突飞猛进的发展，解决问题的困难程度大大超过之前的非深度强化算法。深度强化学习算法为什么常常能够比非深度强化学习算法更厉害呢，这是因为用了深度学习的强化学习方法可以求得更加复杂的解，能在更加困难的问题上得到更好的性能。接下来推荐下我的新书《强化学习原理与Python实现》，这里面的既包括了经典的非深度强化学习算法，也包括深度强化学习算法。
68600发布于 2020-06-06
来自专栏LhWorld哥陪你聊算法
【强化学习篇】--强化学习从初识到应用
一、前述强化学习是学习一个最优策略(policy)，可以让本体(agent)在特定环境(environment)中，根据当前的状态(state)，做出行动(action)，从而获得最大回报(G or 强化学习的过程：先行动，再观察再行动再观测… 每一个动作（action）都能影响代理将来的状态（state），通过一个标量的奖励（reward）信号来衡量成功，目标：选择一系列行动来最大化未来的奖励
63720发布于 2018-09-13

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

《量子化学软件基础》习题（7）

强化学习笔记7：策略梯度 Policy Gradient

7个流行的强化学习算法及代码实现

论文阅读7-----基于强化学习的推荐系统

第二篇：强化学习中的7个基础概念

【Copy攻城狮日志】强化学习7天打卡营学习笔记

强化学习读书笔记（7）| n步自举（n-step Bootstrapping）

使用DeepSeek的GRPO，7B模型只需强化学习就能拿下数独

强化学习

【强化学习】从强化学习基础概念开始

强化学习第1天：强化学习概述

JCIM｜利用化学语言模型导航超大虚拟化学空间

强化学习(十九) AlphaGo Zero强化学习原理

Wolfram|Alpha 化学分步解答方案：化学反应

【深度学习】强化学习（五）深度强化学习

强化学习

【强化学习篇】--强化学习案例详解一

机器学习——强化学习与深度强化学习

强化学习

【强化学习篇】--强化学习从初识到应用

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐