首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏DotNet 致知

    39_数据

    dis_k=a6617b4e5d6d5596008141bbdb5a702f&dis_t=1648522484&vid=wxv_1636431904738443270&format_id=10002&support_redirect

    24820编辑于 2022-03-29
  • 强化学习基础理论与框架:奖励函数设计原则与技术

    稀疏奖励奖励技术 在强化学习领域,稀疏奖励问题一直是算法训练面临的重要挑战之一。 奖励的核心机制 奖励技术通过设计辅助奖励函数 R′(s)R'(s) 来引导学习过程,其数学表达为 R′(s)=R(s)+F(s,s′)R'(s)=R(s)+F(s,s') ,其中 FF 为函数 2024年DeepMind在《Nature Machine Intelligence》发表的实验表明,恰当的奖励可以使稀疏任务的学习效率提升3-5个数量级。 工程实践中的关键考量 在实际系统部署时,奖励需要特别注意三个维度:1)强度与稀疏主奖励的平衡,避免智能体过度依赖人工设计的辅助信号;2)函数的泛化能力,确保在环境动态变化时仍能有效引导;3) 当前最前沿的研究正朝着多智能体稀疏奖励、基于大语言模型的自动函数生成等方向发展。

    1.6K10编辑于 2025-08-27
  • 来自专栏新智元

    「人造太阳」精准放电!DeepMind实现AI可控核聚变新突破

    而且他们试图通过奖励来提高X点位置的准确性。 以下是针对X点位置准确性的奖励方法: 1. 等离子体形状精度的奖励 研究人员检查了奖励在两种不同配置和目标上所带来的精度改进:减少形状稳定任务中的LCFS误差和提高「snowflake_to_perfect」任务配置中的X点精度。 研究人员首先测试了一个控制策略,该策略通过在奖励部分中讨论的奖励方法来减少shape_70166稳定任务中的LCFS误差。 ,就像在奖励部分描述的Fixed Reward一样。 X点位置精度的奖励 接下来,研究人员将比较奖励对更复杂的「snowflake」配置的影响,如下图所示。 该策略的训练奖励以增加X点控制的准确性。

    89130编辑于 2023-08-07
  • 来自专栏软件资源

    奇妙,PowerShape 2022助您实现高精度的建模与加工+全版本安装包

    Powershape 2022是一款功能强大的CAD软件,可以用于数控编程和模具设计。本软件的设计理念是帮助用户快速创建复杂的CAD模型和NC编程,提高工作效率。此软件集成了先进的模型构建、模具和模块化设计、数控编程等功能特点,可以在各种行业中得到广泛的应用。

    65420编辑于 2023-04-19
  • 来自专栏机器之心

    边学边练,推理觉醒:LUFFY让强化学习即学即用!

    LUFFY 在强化学习框架中引入外部优质推理轨迹,通过 「策略」 机制,融合自身尝试(on-policy)与专家示范(off-policy)的优势。 技术亮点:混合策略与策略 LUFFY 的实现依托于 GRPO 算法框架,并围绕两项核心机制展开: 1. 混合策略训练:同时利用在线轨迹和离线示范,引导模型向高奖励动作靠拢,同时保留自身有效尝试。 策略函数(图 6):通过非线性加权机制强化对关键步骤的学习,防止模型过早收敛、策略熵降低,保持持续探索。图 5 展示了策略对梯度更新的非线性权重以及对模型探索的影响。 图表 5. 策略在 LUFFY 中的作用效果。左图:训练过程中的策略熵对比。中图:不同方法下损失函数基于决策概率的权重分配。右图:基于决策概率的梯度加权情况对比。 策略函数 f () 可被看作正则约束下的重要性采样,鼓励模型关注低概率、但可能重要的行为决策。 实验结果:即学即练,举一反三 图表 7.

    39510编辑于 2025-05-06
  • 新闻:AI时代新闻业的7个变化|腾讯研究院3万字报告

    我们把这份小小的报告命名为《新闻:AI 时代新闻业的 7个变化》。限于精力和视野,我们无法关注新闻业在这个时代的发展全貌,只能通过一些小趋势管窥这个特殊行业正在发生的一些变化。 5月14日,OpenAI刚刚发布最新的多模态大模型GPT-4o,该模型支持文本、音频和图像的任意组合输入,并能生成文本、音频和图像的任意组合输出。 [5]这已经不是NewsGuard第一次将假新闻的矛头指向生成式AI,在该机构2023年每个月的虚假信息监测报告中,几乎都可见AIGC的身影。 [8]同年12月,NewsGuard团队已检测认定了614个不可靠的人工智能生成新闻和信息网站[9],而这一数量在5月时仅为49个[10]。 (三)“新闻软化”的趋势值得警惕短视频的媒介特性,以及算法推送的技术机制,型着短视频新闻的内容与形式风格。

    1.9K10编辑于 2024-11-11
  • 来自专栏数说工作室

    5. call PRXCHANGE() | 移换影

    【SAS Says·扩展篇】移换影 | 5. call PRXCHANGE() 0. 前集回顾 1. 新的问题 2. 初识 PRXCHANGE() 3. 问题解决 ---- 0. 别担心,小王用PRXCHANGES()函数, 移换影把位置就给换了过来。 2.

    1.3K50发布于 2018-04-03
  • 来自专栏HACK学习

    一个5K RMB奖励的SRC漏洞

    id=154bd8345f9cd560ea1c0e5bf453a41d 看到这里,不禁想起了ImageMagick漏洞(CVE-2016-3714)带来的影响性,当前连baidu主站都惨遭被RCE的恶运 在和SRC沟通了该漏洞的一些详细细节以及修复方式后,他们为这单个漏洞也奖励了我5000 rmb ,也算非常厚道了。 ?

    2.1K20发布于 2019-11-04
  • 来自专栏刘旷专栏

    颜值经济转向身材经济,医美的第二曲线来了

    另一方面,美体的成效相比以往更快,尤其是伴随相关新技术的不断推陈出新,美体也更加安全高效,消费者的权益也将会更有保障。 新氧通过专业的5G、AI技术赋能消费者的消费过程,诸如推出新氧魔镜测脸、扫码验真等实用工具,增加消费过程趣味性的同时,也更加直观让消费者感受到美体之后的成效,并提升消费体验。 头部平台引领下,美体迎来新发展 而在新氧这类头部医美平台的推动下,也将对整个美体行业产生积极的推动作用。 首先,头部专业平台将会帮助美体市场更加专业、规范和安全。 美体正在成为医美“第二曲线” 对于整体医美行业而言,美体也将在更多的层面成为拉动整个医美消费增长的“第二曲线”。 其一,美体将加速医美平台的“破圈”。进行美体之后如何保养? 也就是说,借助美体,未来医美可以和大健康相结合。通过对前后更多场景的渗透,保证前期咨询、中期、后期保养的全链条服务体系,拓宽平台的业务边界。 其二,美体也将会更加多元化和个性化。

    4.6K00发布于 2020-11-18
  • Nat. Comput. Sci. | TANGO: 面向可合成性约束的分子生成直接优化框架

    结果表明,在复杂的合成约束场景下,通过奖励驱动的通用生成模型能够有效学习并实现目标优化。 方法概述 研究人员将“受限可合成性”形式化为一个连续奖励问题。 通过这种奖励机制,生成模型可以逐步学习如何在合成路径中引入目标构建块。该奖励取所有合成图节点中的最大值,并通过强化学习优化。 结果 受限可合成性的可学习性 研究人员首先通过消融实验分析奖励函数设计对优化动态的影响。 总体而言,研究人员表明,通过奖励与强化学习结合,通用生成模型可以有效适应现实化学约束条件。这为绿色化学、工业副产物再利用以及复杂药物合成网络设计提供了新的技术路径。

    17710编辑于 2026-03-04
  • Nat. Comput. Sci. | TANGO: 面向可合成性约束的分子生成直接优化框架

    结果表明,在复杂的合成约束场景下,通过奖励驱动的通用生成模型能够有效学习并实现目标优化。 方法概述 研究人员将“受限可合成性”形式化为一个连续奖励问题。 通过这种奖励机制,生成模型可以逐步学习如何在合成路径中引入目标构建块。该奖励取所有合成图节点中的最大值,并通过强化学习优化。 结果 受限可合成性的可学习性 研究人员首先通过消融实验分析奖励函数设计对优化动态的影响。 总体而言,研究人员表明,通过奖励与强化学习结合,通用生成模型可以有效适应现实化学约束条件。这为绿色化学、工业副产物再利用以及复杂药物合成网络设计提供了新的技术路径。

    10710编辑于 2026-03-06
  • 来自专栏强化学习专栏

    【RL Latest Tech】安全强化学习(Safe RL):理论、方法与应用

    在强化学习的传统框架下,智能体学习的是一个最优策略 ,该策略通过最大化累积奖励(回报) 来优化智能体的行为决策。这里, 是时间步 的奖励值, 是折扣因子。 奖励与惩罚机制 为了引导智能体学习到安全的行为,奖励(Reward Shaping) 是一种常见的技术。 具体做法是,将奖励函数修改为同时考虑回报和安全性的组合: 其中, 是原始的奖励函数, 是智能体在状态 采取动作 后进入状态 时的安全代价, 是代价权重。 5.应用与案例 1. 自动驾驶 在自动驾驶领域,安全是至关重要的。自动驾驶汽车需要在复杂的交通环境中做出实时决策,确保遵守交通规则,避免碰撞和其他事故。 通过引入安全约束、风险敏感优化和奖励等技术,安全强化学习为智能体在复杂和不确定的环境中做出安全且有效的决策提供了重要工具和方法。

    94710编辑于 2024-12-03
  • 来自专栏人工智能与演化计算成长与进阶

    近年来强化学习分类综述大全,不看后悔,收藏为先!

    off-policy rl 策略估计 逆强化学习 强化学习、模仿学习 分层强化学习 多任务强化学习 adversarial rl Probabilistic rl 分布式强化学习 Sim-to-Real 奖励 课程学习强化学习 可解释的强化学习 动态环境强化学习 Human advice强化学习 NLP&rl 强化学习实验 强化学习的应用 1.机器人 2.搜索、推荐、社交 3.经济金融 4.交通运输、能源 5. Sim-to-Real Transfer in Deep Reinforcement Learning for Robotics: a Survey arxiv.org/pdf/2009.1330 奖励 Building Energy Management: A Survey https://arxiv.org/pdf/2008.05074.pdfarxiv.org weixin.qq.com/g/AwYAAO5< br> (二维码自动识别) 满200的话拉您进2群,加我微信 jjnuxjp5x 5.游戏 A Survey of Deep Reinforcement Learning in Video Games

    1.4K31发布于 2021-06-09
  • NeurIPS强化学习挑战赛冠军揭晓

    PPG算法进行了多项修改在从未见过的环境中实现了最佳泛化性能使用了超参数调优优化方法样本效率赛道获胜团队:Adrien Gaidon和Blake Wulfe在辅助阶段使用数据增强,但在策略阶段不使用实验了奖励归一化和奖励技术实现了最佳的样本效率

    19910编辑于 2025-11-01
  • 来自专栏DeepHub IMBA

    ProRL:基于长期强化学习让1.5B小模型推理能力超越7B大模型

    训练数据集构成 训练数据集涵盖广泛的任务类型,旨在提供可靠的验证奖励信号。 奖励机制采用二元信号设计,正确答案获得奖励1,错误或格式不正确的答案获得奖励0。模型通过"让我们逐步思考并在\boxed{}中输出最终答案"的提示格式生成回答。 系统改进了代码执行环境,能够运行所有测试用例而不是在首次错误时终止,并根据通过测试用例的比例分配奖励,以支持连续性奖励反馈。编译失败、包含语法错误或总执行时间超过5秒的提交将被分配零奖励。 这些重置操作还允许调整超参数设置以及引入新的训练数据和奖励机制。 上图展示了训练过程中KL散度的变化情况。 训练阶段4和5:通过惩罚未正确终止的响应引入奖励机制,这种方法促进了正确的生成行为,从而适度减少了响应长度。 训练阶段6和7:将推理计数从16增加到32,执行了两次硬重置操作。

    40710编辑于 2025-08-20
  • 来自专栏CreateAMind

    大型推理模型的强化学习综述(1-4章)

    在上述四类奖励的基础上,我们在 §3.1.5 进一步探讨“奖励”,分析如何组合或转换多样化的奖励信号以促进学习。 3.1.5 奖励 要点总结: 奖励将稀疏信号丰富为稳定、信息量充足的梯度,以支持 LLM 训练。 这一过程被称为“奖励”[Goyal 等,2019;Gupta 等,2022;Hu 等,2020;Xie 等,2023],可分为基于规则的奖励和基于结构的奖励。 基于规则的奖励。 与仅依赖单个样本的基于规则方法不同,基于结构的奖励利用列表级或集合级基线,在一组候选样本上计算奖励。 机制分析进一步指出,RL 的增益常源于熵奖励代理。

    66220编辑于 2026-03-11
  • Potential Reward Shaping不改变智能体的原始最优策略

    PotentialRewardShaping唯一一种在理论上不改变智能体的原始最优策略的奖励方法。这是一个标准但必须一步不跳的证明问题。 常数平移”,而与智能体在该状态执行什么动作没有关系:V′π(s)=Vπ(s)+Φ(s)V'^\pi(s)=V^\pi(s)+\Phi(s)V′π(s)=Vπ(s)+Φ(s)0️⃣前提与记号(先统一)原始奖励 :r(s,a,s′)r(s,a,s')r(s,a,s′)Shaping后奖励:r′(s,a,s′)=r(s,a,s′)+γΦ(s′)−Φ(s)r'(s,a,s')=r(s,a,s')+\gamma\Phi 5️⃣为什么这一步这么“神奇”? 换句话说:Potentialshaping不是“随便加奖励”,而是精心构造的“可积项”。

    12310编辑于 2026-02-11
  • 来自专栏新智元

    【重磅】DeepMind发布通用强化学习新范式,自主机器人可学会任何任务

    奖赏(reward shaping)、学徒学习(apprenticeship learning)以及示范学习等技巧可以帮助解决这个问题。 如果达到了目标,每个任务会关联到一个简单的奖励,否则奖励为零。 图2:agent学习的第一件事是激活手指上的触摸传感器,并移动两个物体。 图3:模拟agent最终掌握了“堆叠”物体这个复杂任务。 更重要的是,agent可以通过充分利用off-policy learning来检测并从其他任务的奖励信号学习。例如,在拾取或移动一个物体时,agent可能会顺便把它堆叠起来,从而得到“堆叠”的奖励。 由于一系列简单的任务可以导致观察到罕见的外部奖励,所以将“意图”进行安排(schedule)的能力是至关重要的。这可以根据所收集到的所有相关知识创建一个个性化的学习课程。 图5:在真正的机械臂上,SAC-X学习如何从头开始拾取和移动绿色方块。它此前从未见过这一任务。 我们认为SAC-X是从头开始学习控制任务的重要一步,只需指定一个总体目标。

    1.2K60发布于 2018-03-12
  • 来自专栏小小挖掘机

    强化学习反馈稀疏问题-HindSight Experience Replay原理及实现!

    一种常见的思想是奖励(Reward Shaping),比如根据人工的经验设计一些新的奖励。 在这个例子中,可以用两个数组的平方距离来作为新的奖励,如果平方距离小,说明两个数组更接近,那么可以给一个高的奖励,反之可以给一个低的奖励。 3.1 环境搭建 我们首先来建立一个表示环境的类BitFlip,我们这里设计了两种reward的形式,一种是前文有提到过的奖励的方式,即用两个序列的平方距离来代表reward;另一种就是稀疏的方式, 如果两个序列相同,奖励0,否则奖励-1。 nss = np.vstack(minibatch[:, 3]) ds = minibatch[:, 4] gs = np.vstack(minibatch[:, 5]

    2.2K30发布于 2018-12-27
  • 来自专栏深度强化学习实验室

    解决强化学习反馈稀疏问题之HER方法原理及代码实现

    一种常见的思想是奖励(Reward Shaping),比如根据人工的经验设计一些新的奖励。 在这个例子中,可以用两个数组的平方距离来作为新的奖励,如果平方距离小,说明两个数组更接近,那么可以给一个高的奖励,反之可以给一个低的奖励。 同时,基于状态s、动作a以及目标g来计算奖励r: ? 因此保存的每一条经验可以由五部分组成:当前状态s,采取的动作a,即时奖励r,下一个状态s',当前的目标g。 3.1 环境搭建 我们首先来建立一个表示环境的类BitFlip,我们这里设计了两种reward的形式,一种是前文有提到过的奖励的方式,即用两个序列的平方距离来代表reward;另一种就是稀疏的方式, nss = np.vstack(minibatch[:, 3]) ds = minibatch[:, 4] gs = np.vstack(minibatch[:, 5]

    2.9K20发布于 2019-11-21
领券