首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏CreateAMind

    4篇前沿强化学习论文

    4 UNSUPERVISED CONTROL THROUGHNON-PARAMETRIC DISCRIMINATIVE REWARDS David Warde-Farley, Tom Van de Wiele

    69330发布于 2018-12-26
  • 来自专栏量子化学

    《量子化学软件基础》习题(4

    图2 组氨酸结构 图3 天冬氨酸结构 图4 High-spin state 本次计算需要用Broken Symmetry DFT方法,我们首先使用B3LYP/def2-TZVP计算体系 RC 和 RC’的高自旋态(图4),再使用ORCA中的Flipspin翻转Fe原子的自旋得到图1中的低自旋电子态。

    61720编辑于 2022-12-07
  • 来自专栏CreateAMind

    化学习教程4: Model-Free Prediction

    Learning Lecture 2: Markov Decision Processes Lecture 3: Planning by Dynamic Programming Lecture 4:

    32310发布于 2018-07-25
  • 来自专栏机器人课程与技术

    化学习笔记4-PythonOpenAITensorFlowROS-时间差分

    智能体驾驶出租车。 总共有四个地点,智能体必须在一个地方接载一名乘客,然后在另一个地方放下乘客。 智能体将获得+20分作为成功下车的奖励,并且每次获得的时间步数为-1分。 非法接送和丢弃的智能体也将失去-10分。 因此,智能体的目标是学习在短时间内在正确的位置接载和放下乘客,无需登上任何非法乘客。

    82630发布于 2019-06-15
  • 来自专栏用户6881919的专栏

    论文阅读4-----基于强化学习的推荐系统

    化学习的有点在于可以根据不断尝试不断改进策略,就是它所达到的目标并不是什么准确率或者什么其他。

    83300发布于 2021-01-16
  • OpenCV4系统化学习路线图(新版)

    二、OpenCV4软件特性OpenCV4官方版是一款开源的跨平台计算机视觉库。 OpenCV4软件内置了Python、MATLAB、Ruby等语言的接口,用户能够轻松的使用和修改代码。 四、opencv4比opencv3多了哪些OpenCV 4相较于OpenCV 3,主要增加了对SIFT与SURF的支持、改进了DNN模块、增加了对特定网络结构的支持、新增了DNN例程、以及功能提升 而在OpenCV 4中,如果想要使用SIFT与SURF,需要从源代码中通过CMake编译生成Python版本的安装包。 这些改进和新增功能使得OpenCV 4在计算机视觉领域的应用更加广泛和高效。

    68710编辑于 2024-05-29
  • 来自专栏探物及理

    化学习-4:无模型预测 model-free prediction

    对于Env来说,属于MP,但是不是参数已知的MDP 比如元组中a、s、P的关系不确定 or 未知 Prediction -> Control Evaluation -> Optimization

    68320发布于 2020-08-25
  • 来自专栏数据魔术师

    化学习读书笔记(4)| 动态规划(Dynamic Programming)

    二号租车点的租车数量和回收数量的λ分别为4和2。问使用什么样的调配策略可以使得收益最优化? 1、定义初始值及泊松分布 ? 2、计算expected return ? 3、策略迭代并可视化 ? ?

    1.7K20发布于 2019-08-22
  • 来自专栏探物及理

    化学习笔记4:无模型预测 model-free prediction

    对于Env来说,不是参数已知的MDP 比如元组中a、s、P的关系不确定 or 未知

    68620发布于 2020-08-25
  • 来自专栏磐创AI技术团队的专栏

    OpenCV4系统化学习路线图与教程

    OpenCV4毫无疑问是一个OpenCV发展历史的一个重要里程碑之作。 学习路线图 从OpenCV4发布测试版本开始,作者就一直关注! 根据自己近十年图像处理OpenCV开发相关工作经验,花了七个月的时间,针对OpenCV4、精心选择OpenCV中常用模块与知识点,构建了一套系统化的课程,这套课程对每个课时的代码演示都是基于C++与Python 知识点与课程提纲 1.IO模块 2.图像读写 3.视频读写 4.Mat与Numpy操作 5.像素遍历与访问 6.图像算术与几何操作 7.图像查找表LUT 8.伪彩色与颜色表 9.图像通道合并与分离 10 OpenCV4.0+C++ https://www.bilibili.com/video/av36486959 划重点 1 140课时系统化OpenCV教程 1 C++与Python双语教学 3 案例工程代码实践 4

    1.5K50发布于 2019-05-05
  • 来自专栏计算机视觉战队

    OpenCV4系统化学习路线图与教程

    OpenCV4毫无疑问是一个OpenCV发展历史的一个重要里程碑之作。 学习路线图 从OpenCV4发布测试版本开始,作者就一直关注! 根据自己近十年图像处理OpenCV开发相关工作经验,花了七个月的时间,针对OpenCV4、精心选择OpenCV中常用模块与知识点,构建了一套系统化的课程,这套课程对每个课时的代码演示都是基于C++与Python 知识点与课程提纲 1.IO模块 2.图像读写 3.视频读写 4.Mat与Numpy操作 5.像素遍历与访问 6.图像算术与几何操作 7.图像查找表LUT 8.伪彩色与颜色表 9.图像通道合并与分离 10 OpenCV4.0+C++ https://www.bilibili.com/video/av36486959 划重点 1 140课时系统化OpenCV教程 1 C++与Python双语教学 3 案例工程代码实践 4

    2.1K10发布于 2019-05-22
  • 来自专栏新智元

    4分钟成功复现诺奖!CMU开发GPT-4化学家,自主编码操控机器人颠覆化学研究登Nature

    由CMU和Emerald Cloud Lab团队开发的GPT-4加持的AI工具,在不到4分钟的时间成功复现2010年诺奖研究成果。 ChatGPT大模型爆火这一年,没想到竟颠覆了整个化学领域。 它可以设计、编码和执行多种反应,完全实现了化学实验室的自动化。 实验评测中,Coscientist利用GPT-4,在人类的提示下检索化学文献,成功设计出一个反应途径来合成一个分子。 GPT-4自动化学研究 当前,AI工具在科学领域的应用激增,但对于在实验室工作的研究人员,或那些不精通代码的人来说,AI并非唾手可得。 我们都知道,化学研究建立在迭代循环的基础上。 当OpenAI在3月份放出GPT-4后,Gomes和团队成员开始思考,如何让大模型为化学家服务。 Gomes表示,「Coscientist却可以做真正训练有素的化学家可以做的大部分事情。」 钯催化偶联反应整个流程 在不到4分钟的时间里,Coscientist设计了一个使用团队提供的化学物质产生所需反应的准确程序。

    74311编辑于 2023-12-21
  • 来自专栏ArrayZoneYour的专栏

    TensorFlow强化学习入门(4)——深度Q网络(DQN)及其扩展

    它基于我们系列文章中(0)的单层Q网络,如果你是强化学习的初学者,我推荐你到文末跳转到(0)开始阅读。尽管简单的Q网路已经可以在简单的问题上和Q表表现一样出色,但是深度Q网络可以使其变得更强。 这么做的好处主要体现在强化学习的agent不需要在每个时刻都同时考虑价值和决策。举例来说:想象你在坐在公园的长椅上看日落的场景,这是十分美好的,也就是说坐在长椅上这一行为会带来很高的收益。 ]) self.conv1 = slim.conv2d(inputs=self.imageIn, num_outputs=32, kernel_size=[8,8], stride=[4,4 biases_initializer=None) self.conv2 = slim.conv2d(inputs=self.conv1, num_outputs=64, kernel_size=[4,4 系列文章(翻译进度): (0) Q-Learning的查找表实现和神经网络实现 (1) 双臂赌博机 (1.5) — 上下文赌博机 (2) —— 基于策略的Agents (3) —— 构建仿真环境来进行强化学

    8.3K110发布于 2018-03-01
  • 来自专栏CreateAMind

    组合游戏系列4: AlphaGo Zero 强化学习算法原理深度分析

    和 Alpha Beta剪枝 第二篇: 井字棋Leetcode系列题解和Minimax最佳策略实现 第三篇: 井字棋、五子棋的OpenAI Gym GUI环境 第四篇: AlphaGo Zero 强化学习算法原理深度分析 AlphaGo Zero 作为Deepmind在围棋领域的最后一代AI Agent,已经可以达到棋类游戏的终极目标:在只给定游戏规则的情况下,AI 棋手从最初始的随机状态开始,通过不断的自我对弈的强化学习来实现超越以往任何人类棋手和上一代 AlphaGo Zero 算法由三种元素构成:强化学习(RL)、深度学习(DL)和蒙特卡洛树搜索(MCTS,Monte Carlo Tree Search)。 核心思想是基于神经网络的Policy Iteration强化学习,即最终学的是一个深度学习的policy network,输入是某棋盘局面 s,输出是此局面下可走位的概率分布: 。 ? 假设某节点有两个子节点s1, s2,它们的统计指标为 s1: w/n = 3/4,s2: w/n = 6/8,由于两者输赢比率一样,因此根据公式,访问次数少的节点出于Exploration的目的胜出,MCTS

    2.3K51发布于 2020-10-22
  • 来自专栏CreateAMind

    大型推理模型的强化学习综述(1-4章)

    我们讨论了 LRM 强化学习中基础性且仍具争议的问题(§4),如 RL 的作用(§4.1)、RL 与监督微调(SFT)的对比(§4.2)、模型先验(§4.3)、训练方案(§4.4)及奖励定义(§4.5) 除上述模型外,我们在图 4 中提供了推理模型的完整列表,并在表 1 中详列了开源模型的具体信息。 2.3 相关综述 在本小节中,我们比较了近期与强化学习(RL)和大语言模型(LLMs)相关的综述文献。 在温度设置方面,策略差异显著:部分研究提出动态调整方法,例如分阶段逐步升高温度(如针对 4B 模型从 1.40 → 1.45 → 1.50,针对 7B 模型从 0.7 → 1.0 → 1.1),以在训练过程中逐步扩大轨迹多样性 4.2 强化学习 vs. 监督微调:泛化还是记忆 在本小节中,我们讨论强化学习(RL)与监督微调(SFT)的作用,聚焦于泛化与记忆之间的相互作用。 在面向大语言模型(LLM)的强化学习背景下,核心挑战在于如何提供有意义的奖励——例如训练奖励模型或验证器对输出进行评分,并将这些评分用于强化学习或搜索。

    65020编辑于 2026-03-11
  • 来自专栏AI SPPECH

    4:L的强化学习安全决策:蓝队的智能响应系统

    技术深度拆解与实现分析 4. 与主流方案深度对比 5. 工程实践意义、风险、局限性与缓解策略 6. 未来趋势与前瞻预测 1. else: security_reward = 0.2 else: # 没有攻击时,避免误报 if action == 4: ", env.get_state()) # 模拟攻击 env.simulate_attack("DDoS", "server1") print("攻击后状态:", env.get_state()) 4. 未来,我们将看到: 多智能体强化学习:多个智能体协同工作,处理复杂的安全场景 元强化学习:模型能够快速适应新的安全环境,减少训练时间 安全强化学习:专门为安全领域设计的强化学习算法,考虑安全特有的约束和目标 辅助:GitHub: security-rl - 安全强化学习开源项目 附录(Appendix): 模型超参设置 参数 值 说明 学习率 3e-4 模型学习速度 批量大小 64 每次训练的样本数 折扣因子

    8810编辑于 2026-03-25
  • 来自专栏量子化学

    使用EzReson进行化学共振分析(4):实例:Diels–Alder加成的共振分析

    现在有一个问题需要考虑:我们需要考虑的共振子系统是参与[4+2]协同反应的6个电子,一共对应3条占据的LMOs。 = DA_TS Job = WFRT LMOs = 35 37 38 Atoms = 6 7 8 9 2 1 需要注意的是Atoms中的原子序号,如上图所示,这个[4+

    85010发布于 2021-02-26
  • 来自专栏小詹同学

    OpenCV4最全系统化学习路线图与教程!

    OpenCV4毫无疑问是一个OpenCV发展历史的一个重要里程碑之作。 学习路线图 从OpenCV4发布测试版本开始,作者就一直关注! 根据自己近十年图像处理OpenCV开发相关工作经验,花了七个月的时间,针对OpenCV4、精心选择OpenCV中常用模块与知识点,构建了一套系统化的课程,这套课程对每个课时的代码演示都是基于C++与Python 知识点与课程提纲 1.IO模块 2.图像读写 3.视频读写 4.Mat与Numpy操作 5.像素遍历与访问 6.图像算术与几何操作 7.图像查找表LUT 8.伪彩色与颜色表 9.图像通道合并与分离 10

    1.3K20发布于 2019-11-12
  • 来自专栏嘘、小点声

    李宏毅的强化学习视频用于梳理翻阅(4)奖励、模仿

    层次形式强化学习 上层单位提供愿景,下层单位执行愿景,下层无法执行,则交给下下层。最终执行的内容返回给上层。上层修改愿景? 逆向强化学习 逆向强化学习中,首先是专家在环境中进行交互生成了数据1,与Actor在环境中交互生成了数据2。 将数据1和数据2进行处理,处理过程中使得数据1的奖励大于数据2,得到奖励函数R。 逆向强化学习与GAN网络很相似。GAN通过鉴别器判断输出的好坏,通过G获得一个新的图像输出?

    61410发布于 2020-06-02
  • 来自专栏新智元

    化学专业一骑绝尘,全面碾压GPT-4

    更令人惊叹的是,它在专业领域的表现,比如化学任务,也能远远领先GPT-4。 Claude 3的诞生又一次震惊了全世界。 比如化学化学在药物发现和材料科学等领域发挥着至关重要的作用,但现有研究显示它们在化学任务上的性能令人沮丧。 例如,将SMILES转换为分子式的准确率达到94.5%,而GPT-4仅为16.4%;对于逆合成任务,准确率达到32.9%,而GPT-4仅为0%,并接近最先进的任务特定模型SOTA。 这个结果是合理的,虽然GPT-4很强大,但它毕竟是通用模型,很难直接和经过特定的任务及样本微调的LlaSMol去对抗。 虽然与LlaSMol还是有差距,但在大多数任务中,Claude 3的表现远远超过GPT-4

    30310编辑于 2024-03-29
领券