首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏图与推荐

    KDD'21 | 时间复杂度接近最优的通用图传播算法

    但是这些方法普遍存在不够通用、时间复杂度较高等问题,接下来我们将具体分析Monte-Carlo随机游走和确定性传播两种算法的局限。 Monte-Carlo随机游走 [Fogaras et al., Internet Mathematics 2005]: 如果图传播框架为: ,则我们可以借助Monte-Carlo随机游走得到 Monte-Carlo随机游走的优势在于直观、灵活,但是其只能处理 的情形,而不支持类似Katz 的邻近度指标。 其次,Monte-Carlo随机游走的估计结果方差较大,为了达到估计结果的误差要求,需要产生大量的随机游走,时间消耗较大。 AGP算法: 受上述Monte-Carlo随机游走和确定性传播方法的启发,在本篇论文中,我们提出了通用算法AGP。

    1.3K20发布于 2021-08-26
  • 来自专栏AgenticAI

    速报!DeepSeek-Prover-V2-671B 悄然上线,或为 R2 铺路?

    DeepSeek 发布了论文 DeepSeek-Prover-V1.5: Harnessing Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo 参考资料 [1] DeepSeek-Prover-V1.5: Harnessing Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo

    36910编辑于 2025-05-01
  • 来自专栏数据派THU

    原创 | 一文读懂无模型的预测(强化学习二)

    3.1.1 蒙特卡洛策略评估(Monte-Carlo policy evaluation) 一、概述 a. b. 与 成比例 TD(1) 几乎等价于every-visit Monte-Carlo 3.1.3 总结 编辑:于腾凯 校对:林亦霖

    52020编辑于 2023-09-18
  • 来自专栏AI研习社

    Github项目推荐 | 最优控制、强化学习和运动规划等主题参考文献集锦

    MCTS Efficient Selectivity and Backup Operators in Monte-Carlo Tree Search, Rémi Coulom, SequeL (2006 UCT Bandit based Monte-Carlo Planning, Kocsis L., Szepesvári C. (2006). TrailBlazer Blazing the trails before beating the path: Sample-efficient Monte-Carlo planning, Grill

    2.3K11发布于 2019-05-08
  • 来自专栏CreateAMind

    Qzero算法介绍

    Modified AlphaZero/MuZero 算法: “Monte-Carlo tree search as regularized policy optimization” https://arxiv.org “Maximum Entropy Monte-Carlo Planning” 论文链接: https://papers.nips.cc/paper/9148-maximum-entropy-monte-carlo-planning.pdf

    1.6K20发布于 2020-09-28
  • 来自专栏Python编程和深度学习

    强化学习(三)算法概述

    3、单步更新还是回合更新: 强化学习中的蒙特卡洛算法Monte-carlo是一种回合更新方法,在游戏开始之后需要等到回合结束才能基于整个回合对行为策略进行更新;而时序差分算法Temporal-difference

    67110发布于 2020-10-29
  • 来自专栏拓端tecdat

    R语言用神经网络改进Nelson-Siegel模型拟合收益率曲线分析

    请注意,对于Nelson-Siegel模型,此Monte-Carlo模拟在某种意义上是“仁慈的”,因为我们始终假定前一步的收益(旧收益率)   与NS曲线完全匹配。 请注意,对于Nelson-Siegel模型,此Monte-Carlo模拟在某种意义上是“仁慈的”,因为我们始终假定前一步的收益(旧收益率)   与NS曲线完全匹配。

    94400发布于 2020-08-10
  • 来自专栏新智元

    悉尼科大徐亦达教授:1000+页机器学习讲义,32 份主题推介

    马尔可夫链蒙特卡洛的各种方法 [lda_gibbs_example.m] 和 [test_autocorrelation.m] 和 [gibbs.m] 和 [优酷链接] Particle Filter (Sequential Monte-Carlo ) Sequential Monte-Carlo, Condensational Filter algorithm, Auxiliary Particle Filter [Youku] 粒子滤波器(序列蒙特卡洛

    1.7K30发布于 2019-09-16
  • 来自专栏计算机视觉漫谈

    深度确定性策略梯度DDPG详解

    我们用Monte-carlo方法来估算这个期望值: 在replay memory buffer中存储的(transition): ? , 是基于agent的behavior策略 ? ,所以当我们从replay memory buffer中随机采样获得mini-batch数据时,根据Monte-carlo方法,使用mini-batch数据代入上述policy gradient公式,可以作为对上述期望值的一个无偏差估计

    4.5K40发布于 2020-06-02
  • 来自专栏绿巨人专栏

    强化学习读书笔记 - 14 - 心理学

    Semi-gradient TD() for estimating ^v  v True Online TD() for estimating >  v 13 REINFORCE, A Monte-Carlo

    88260发布于 2018-05-17
  • 来自专栏探物及理

    强化学习笔记11:工程师看强化学习

    Monte-carlo update:游戏开始后, 要等待游戏结束, 然后再总结这一回合中的所有转折点, 再更新行为准则。

    95120发布于 2020-09-10
  • 来自专栏嘘、小点声

    李宏毅的强化学习视频用于梳理翻阅(3)值

    估计价值的方法MC与TD MC(Monte-Carlo)的方法,在Sutton的书中有比较权威并详细的说明。

    58010发布于 2020-05-26
  • 来自专栏Python中文社区

    摩根纽约总部量化女神手把手教你学Python机器学习与量化交易

    Exotic option (奇异期权定价) 5.Least-square monte-carlo for American option pricing (最小二乘蒙特卡罗对美式期权定价) 第十五节 Python衍生品定价-II 1.Common variance reduction techniques for Monte-Carlo and application to option pricing

    3.6K23发布于 2018-08-08
  • 来自专栏探物及理

    强化学习-4:无模型预测 model-free prediction

    ,属于MP,但是不是参数已知的MDP 比如元组中a、s、P的关系不确定 or 未知 Prediction -> Control Evaluation -> Optimization 蒙特卡洛法 Monte-Carlo

    67520发布于 2020-08-25
  • 来自专栏机器之心

    WAIC 2021 | 九章云极DataCanvas方磊:Hypernets——自动化机器学习的基础框架

    第一个是大家熟悉的并且阿尔法狗使用的算法——Monte-Carlo Tree Search,在很多科普媒体文章都介绍过,简单来说作为经典算法的 Monte-Carlo Tree Search 是在搜索空间中

    28810编辑于 2023-03-29
  • 来自专栏强化学习专栏

    深度学习方法的改进

    二是算法: 包括蒙特卡洛树搜索 (Monte-Carlo tree search) , 深度学习和强化学习 (reinforcement learning) 等。

    37510编辑于 2024-12-03
  • 来自专栏DeepHub IMBA

    Actor-Critic:强化学习中的参与者-评价者算法简介

    强化是MONTE-CARLO的学习,它表示总收益是从整个轨迹中采样的。但是在参与者评论家中,我们使用引导程序。因此,优势功能的主要变化。 策略梯度总回报中的原始优势函数更改为自举。

    3.2K51发布于 2020-10-19
  • 来自专栏决策智能与机器学习

    强化学习/增强学习/再励学习介绍 | 深度学习 | 干货分享 | 解读技术

    强化学习的方法可以从不同维度进行分类: 是否需要对环境理解:model free和model-based 基于概率(Policy-based)和基于价值(Value-based)的RL 回合更新(monte-carlo on-policy)和离线学习(off-policy) 无论从哪个角度分类,主要的方法有: policy gradients、q learning、sarsa 、 actor-critic、Monte-carlo

    1.8K10发布于 2020-08-04
  • 来自专栏机器之心

    超越99.9%人类玩家,微软专业十段麻将AI论文细节首次公布

    在 oracle 智能体的帮助下,与仅利用可观察信息的标准 RL 训练相比,常规智能体的提升速度要快得多; 由于麻将的复杂游戏规则导致了不规则的博弈树,并且限制了蒙特卡洛树搜索(Monte-Carlo tree search)方法的应用,所以研究者提出以蒙特卡洛策略调整(Monte-Carlo Policy Adaptation,pMCPA)来提升智能体的运行时性能。

    1.1K20发布于 2020-04-14
  • 来自专栏CreateAMind

    深度强化学习调研概览及最新论文成果(一)RL base & DQN-DDPG-A3C introduction

    Monte-Carlo method适用于“情节式任务”(情节任务序列有终点,与“情节式任务”相对应的是“连续型任务”)。Q(s,a)就是整个序列的期望回报。 MC增量更新中的Monte-Carlo error: ? TD(Time Difference) method,是Monte-Carlo和Dynamic Programming 方法的一个结合。

    1.5K40发布于 2018-07-24
领券