首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏DotNet 致知

    39_数据

    http://mpvideo.qpic.cn/0bf2vqasoaab4eamozwlrfpvdlgde6wacjya.f10002.mp4?dis_k=a6617b4e5d6d5596008141b

    24820编辑于 2022-03-29
  • 强化学习基础理论与框架:奖励函数设计原则与技术

    稀疏奖励奖励技术 在强化学习领域,稀疏奖励问题一直是算法训练面临的重要挑战之一。 奖励的核心机制 奖励技术通过设计辅助奖励函数 R′(s)R'(s) 来引导学习过程,其数学表达为 R′(s)=R(s)+F(s,s′)R'(s)=R(s)+F(s,s') ,其中 FF 为函数 这意味着我们可以安全地添加奖励而不改变问题本质。 可微分实现:2025年NeurIPS会议提出的Diff-PBRS框架将势函数参数化为神经网络,通过端到端训练实现自动。 工程实践中的关键考量 在实际系统部署时,奖励需要特别注意三个维度:1)强度与稀疏主奖励的平衡,避免智能体过度依赖人工设计的辅助信号;2)函数的泛化能力,确保在环境动态变化时仍能有效引导;3) 当前最前沿的研究正朝着多智能体稀疏奖励、基于大语言模型的自动函数生成等方向发展。

    1.6K10编辑于 2025-08-27
  • 来自专栏新智元

    「人造太阳」精准放电!DeepMind实现AI可控核聚变新突破

    而且他们试图通过奖励来提高X点位置的准确性。 以下是针对X点位置准确性的奖励方法: 1. 等离子体形状精度的奖励 研究人员检查了奖励在两种不同配置和目标上所带来的精度改进:减少形状稳定任务中的LCFS误差和提高「snowflake_to_perfect」任务配置中的X点精度。 研究人员首先测试了一个控制策略,该策略通过在奖励部分中讨论的奖励方法来减少shape_70166稳定任务中的LCFS误差。 ,就像在奖励部分描述的Fixed Reward一样。 X点位置精度的奖励 接下来,研究人员将比较奖励对更复杂的「snowflake」配置的影响,如下图所示。 该策略的训练奖励以增加X点控制的准确性。

    89130编辑于 2023-08-07
  • 来自专栏软件资源

    奇妙,PowerShape 2022助您实现高精度的建模与加工+全版本安装包

    Powershape 2022是一款功能强大的CAD软件,可以用于数控编程和模具设计。本软件的设计理念是帮助用户快速创建复杂的CAD模型和NC编程,提高工作效率。此软件集成了先进的模型构建、模具和模块化设计、数控编程等功能特点,可以在各种行业中得到广泛的应用。

    65420编辑于 2023-04-19
  • 来自专栏机器之心

    边学边练,推理觉醒:LUFFY让强化学习即学即用!

    LUFFY 在强化学习框架中引入外部优质推理轨迹,通过 「策略」 机制,融合自身尝试(on-policy)与专家示范(off-policy)的优势。 技术亮点:混合策略与策略 LUFFY 的实现依托于 GRPO 算法框架,并围绕两项核心机制展开: 1. 混合策略训练:同时利用在线轨迹和离线示范,引导模型向高奖励动作靠拢,同时保留自身有效尝试。 策略函数(图 6):通过非线性加权机制强化对关键步骤的学习,防止模型过早收敛、策略熵降低,保持持续探索。图 5 展示了策略对梯度更新的非线性权重以及对模型探索的影响。 图表 5. 策略在 LUFFY 中的作用效果。左图:训练过程中的策略熵对比。中图:不同方法下损失函数基于决策概率的权重分配。右图:基于决策概率的梯度加权情况对比。 策略函数 f () 可被看作正则约束下的重要性采样,鼓励模型关注低概率、但可能重要的行为决策。 实验结果:即学即练,举一反三 图表 7.

    39510编辑于 2025-05-06
  • 来自专栏CPS推广奖励

    22年8月推广大使额外奖励规则

    图片 二、8月拉新额外梯度现金奖励持续进行1、活动时间:2022年8月1日-2022年8月31日2、活动对象:腾讯云官网个人实名认证用户3、活动内容8月1日至8月31日期间,邀新可额外获最高3.5万元现金奖励 推广奖励规则)【高价值新客户奖励】-最高奖励22000元1)订单类型为【客户首购】订单2)单笔订单实付现金金额≥¥3003)满足CPS返佣条件订单(详见CPS推广奖励规则)图片4、活动说明1)【新客户奖励 】和【高价值新客户奖励】可同时参与。 2)活动邀请实时进度查看:腾讯云推广大使邀新奖励>最新活动图片3)额外奖励现金将随8月月结佣金合并打款发放,到账时间和金额根据8月会员星级按月分比例付款,额外激励不计入月佣金封顶。 4)如后续(8月月结之前)发生订单退款,需重新计算额外奖励的推广客户数是否达标,会导致推广者已经获取的奖励失效,需扣除相应的奖励

    14.9K120编辑于 2022-11-10
  • 来自专栏新智元

    过程奖励模型PRM成版本答案!谷歌DeepMind全自动标注逐步骤奖励PAV,准确率提升8%

    PRM可以用来执行搜索,或者作为密集奖励(dense rewards)来提升基础策略,所以问题的核心变成了:到底该「如何设计流程奖励」? 通过训练过程优势验证器 (PAV,process advantage verifiers) 来预测证明器的过程,结果表明,与 ORM 相比,针对 PAV 的测试时搜索准确率提升了8%,计算效率提升了1.5 到5倍;使用PAV的密集奖励进行在线RL,实现了在样本效率上5-6倍的提升,比ORM的准确率提升了6% 定义过程奖励 为了解决前面提到的奖励不确定性,研究人员训练了带有自动标注的过程奖励模型(PRMs 实证结果显示,对于相同的测试时计算预算,针对训练有素的PAV的beam search在准确性上比针对ORM重新排序完整轨迹高出>8%,计算效率提高了1.5-5倍。 此外,文中首次展示了使用PAV作为强化学习中的密集奖励,与仅使用结果奖励相比,数据效率提高了6倍;使用PAV训练的基础策略也实现了8倍更好的Pass @性能(在次尝试中采样正确解决方案的概率),从而为任何测试时重新排序器的性能提供了更高的上限

    34800编辑于 2025-02-14
  • 新闻:AI时代新闻业的7个变化|腾讯研究院3万字报告

    在过去一段时间,我们做了三件事,第一件事是在 2023 年 8 月,发布了《拐点时刻?AIGC 时代的新闻业》报告,这份报告得到了内外部许许多多的关注和反馈。 我们把这份小小的报告命名为《新闻:AI 时代新闻业的 7个变化》。限于精力和视野,我们无法关注新闻业在这个时代的发展全貌,只能通过一些小趋势管窥这个特殊行业正在发生的一些变化。 (三)“新闻软化”的趋势值得警惕短视频的媒介特性,以及算法推送的技术机制,型着短视频新闻的内容与形式风格。 但这一举动的实质,其实是埃隆·马斯克对传统媒体的“回击”——2022年8月,法新社等传统媒体起诉X,要求X为使用其新闻报道内容进行分成。 同时,剧集也从20集传统剧集变为6~8集的流媒体剧集。这样的状况,不仅使编剧面临极大的工作压力,他们的基本福利也无法得到保障。

    1.9K10编辑于 2024-11-11
  • Nat. Comput. Sci. | TANGO: 面向可合成性约束的分子生成直接优化框架

    结果表明,在复杂的合成约束场景下,通过奖励驱动的通用生成模型能够有效学习并实现目标优化。 方法概述 研究人员将“受限可合成性”形式化为一个连续奖励问题。 通过这种奖励机制,生成模型可以逐步学习如何在合成路径中引入目标构建块。该奖励取所有合成图节点中的最大值,并通过强化学习优化。 结果 受限可合成性的可学习性 研究人员首先通过消融实验分析奖励函数设计对优化动态的影响。 总体而言,研究人员表明,通过奖励与强化学习结合,通用生成模型可以有效适应现实化学约束条件。这为绿色化学、工业副产物再利用以及复杂药物合成网络设计提供了新的技术路径。

    17710编辑于 2026-03-04
  • Nat. Comput. Sci. | TANGO: 面向可合成性约束的分子生成直接优化框架

    结果表明,在复杂的合成约束场景下,通过奖励驱动的通用生成模型能够有效学习并实现目标优化。 方法概述 研究人员将“受限可合成性”形式化为一个连续奖励问题。 通过这种奖励机制,生成模型可以逐步学习如何在合成路径中引入目标构建块。该奖励取所有合成图节点中的最大值,并通过强化学习优化。 结果 受限可合成性的可学习性 研究人员首先通过消融实验分析奖励函数设计对优化动态的影响。 总体而言,研究人员表明,通过奖励与强化学习结合,通用生成模型可以有效适应现实化学约束条件。这为绿色化学、工业副产物再利用以及复杂药物合成网络设计提供了新的技术路径。

    10710编辑于 2026-03-06
  • 来自专栏强化学习专栏

    【RL Latest Tech】安全强化学习(Safe RL):理论、方法与应用

    在强化学习的传统框架下,智能体学习的是一个最优策略 ,该策略通过最大化累积奖励(回报) 来优化智能体的行为决策。这里, 是时间步 的奖励值, 是折扣因子。 奖励与惩罚机制 为了引导智能体学习到安全的行为,奖励(Reward Shaping) 是一种常见的技术。 具体做法是,将奖励函数修改为同时考虑回报和安全性的组合: 其中, 是原始的奖励函数, 是智能体在状态 采取动作 后进入状态 时的安全代价, 是代价权重。 lagrangian_loss 是拉格朗日损失,它平衡奖励与违反安全约束的代价。 通过引入安全约束、风险敏感优化和奖励等技术,安全强化学习为智能体在复杂和不确定的环境中做出安全且有效的决策提供了重要工具和方法。

    94710编辑于 2024-12-03
  • 来自专栏刘旷专栏

    颜值经济转向身材经济,医美的第二曲线来了

    另一方面,美体的成效相比以往更快,尤其是伴随相关新技术的不断推陈出新,美体也更加安全高效,消费者的权益也将会更有保障。 头部平台引领下,美体迎来新发展 而在新氧这类头部医美平台的推动下,也将对整个美体行业产生积极的推动作用。 首先,头部专业平台将会帮助美体市场更加专业、规范和安全。 美体正在成为医美“第二曲线” 对于整体医美行业而言,美体也将在更多的层面成为拉动整个医美消费增长的“第二曲线”。 其一,美体将加速医美平台的“破圈”。进行美体之后如何保养? 也就是说,借助美体,未来医美可以和大健康相结合。通过对前后更多场景的渗透,保证前期咨询、中期、后期保养的全链条服务体系,拓宽平台的业务边界。 其二,美体也将会更加多元化和个性化。 就像网红脸千篇一律没有特色一样,每个人的美是有其独特性的,而美体也是如此。并不是所有人都适合蜂腰长腿,在健康的前提下,多元化、个性化也将成为美体的新趋势。

    4.6K00发布于 2020-11-18
  • 来自专栏人工智能与演化计算成长与进阶

    近年来强化学习分类综述大全,不看后悔,收藏为先!

    off-policy rl 策略估计 逆强化学习 强化学习、模仿学习 分层强化学习 多任务强化学习 adversarial rl Probabilistic rl 分布式强化学习 Sim-to-Real 奖励 Human advice强化学习 NLP&rl 强化学习实验 强化学习的应用 1.机器人 2.搜索、推荐、社交 3.经济金融 4.交通运输、能源 5.游戏 6.云计算、物联网 7.自动驾驶、路径规划 8. Sim-to-Real Transfer in Deep Reinforcement Learning for Robotics: a Survey arxiv.org/pdf/2009.1330 奖励 Survey of Deep Reinforcement Learning for Motion Planning of Autonomous Vehicles arxiv.org/pdf/2001.1123 8.

    1.4K31发布于 2021-06-09
  • NeurIPS强化学习挑战赛冠军揭晓

    PPG算法进行了多项修改在从未见过的环境中实现了最佳泛化性能使用了超参数调优优化方法样本效率赛道获胜团队:Adrien Gaidon和Blake Wulfe在辅助阶段使用数据增强,但在策略阶段不使用实验了奖励归一化和奖励技术实现了最佳的样本效率

    19910编辑于 2025-11-01
  • 来自专栏DeepHub IMBA

    ProRL:基于长期强化学习让1.5B小模型推理能力超越7B大模型

    奖励机制采用二元信号设计,正确答案获得奖励1,错误或格式不正确的答案获得奖励0。模型通过"让我们逐步思考并在\boxed{}中输出最终答案"的提示格式生成回答。 这些重置操作还允许调整超参数设置以及引入新的训练数据和奖励机制。 上图展示了训练过程中KL散度的变化情况。 训练阶段1:初始阶段不包含指令遵循数据,响应长度限制为8k标记(基础模型的序列长度为128k)。在训练后期观察到验证性能的不稳定性和下降趋势。 训练阶段2:对参考策略执行硬重置操作,以与阶段1相同的设置恢复训练过程,最大响应长度维持在8k标记。 训练阶段4和5:通过惩罚未正确终止的响应引入奖励机制,这种方法促进了正确的生成行为,从而适度减少了响应长度。 训练阶段6和7:将推理计数从16增加到32,执行了两次硬重置操作。

    40710编辑于 2025-08-20
  • 来自专栏CreateAMind

    大型推理模型的强化学习综述(1-4章)

    在上述四类奖励的基础上,我们在 §3.1.5 进一步探讨“奖励”,分析如何组合或转换多样化的奖励信号以促进学习。 3.1.5 奖励 要点总结: 奖励将稀疏信号丰富为稳定、信息量充足的梯度,以支持 LLM 训练。 这一过程被称为“奖励”[Goyal 等,2019;Gupta 等,2022;Hu 等,2020;Xie 等,2023],可分为基于规则的奖励和基于结构的奖励。 基于规则的奖励。 与仅依赖单个样本的基于规则方法不同,基于结构的奖励利用列表级或集合级基线,在一组候选样本上计算奖励。 机制分析进一步指出,RL 的增益常源于熵奖励代理。

    66220编辑于 2026-03-11
  • 来自专栏人工智能

    游戏NPC的智能行为设计:从规则驱动到强化学习的演进

    self.reset() def reset(self): self.player_pos = np.array([1, 1]) self.npc_pos = np.array([8, 8]) self.goal_pos = np.array([9, 9]) return self. 、泛化与迁移4.1 奖励函数的艺术奖励设计是RL的核心。 我们使用的“距离差”奖励简单有效,但可能陷入局部最优。更复杂的奖励可包括:拦截提前量(预测玩家路径)碰撞惩罚(避免撞墙)时间惩罚(鼓励快速拦截)4.2 泛化能力测试训练后NPC是否只在特定地图有效? 用户个性化适应通过在线学习或元学习(Meta-Learning),NPC可适应个体玩家风格:对激进玩家采取防守策略对谨慎玩家设伏诱导5.3 道德与可控性智能NPC也可能“学坏”:利用漏洞(如卡墙)出现不可预测行为解决方案包括:奖励

    85911编辑于 2025-09-17
  • 来自专栏AI科技评论

    学界 | DeepMind提出强化学习新算法,教智能体从零学控制

    诸如奖赏(reward shaping)、学徒学习(Apprenticeship learning)或从演示中学习(Learning from Demonstration)等技术可以帮助解决这个问题 对于每个任务,如果实现目标,会提供相应的简单奖励。没实现目标的话,奖励为零。 ? 智能体首先学习激活手指上的触觉传感器,然后移动物体 ? 至关重要的是,对于目前还没有使用基于回放的离策略学习方法的任务,该代理可以从奖励信号中发现和学习。例如,当拾取或移动一个物体时,智能体可能会偶然地将物体堆叠起来,观察到「堆叠奖励」。 一系列简单的任务会让智能体观察到罕见的外部奖励,所以让智能体具有安排意图的能力至关重要。 基于收集到的所有的间接知识,智能体会建立一个个性化的学习课程。 在如此大的领域中,通过这种方法来利用知识非常高效,在只有很少的外部奖励信号的情况下尤其有用。 通过调度模块,智能体会决定接下来的意图。

    84650发布于 2018-03-06
  • Potential Reward Shaping不改变智能体的原始最优策略

    PotentialRewardShaping唯一一种在理论上不改变智能体的原始最优策略的奖励方法。这是一个标准但必须一步不跳的证明问题。 常数平移”,而与智能体在该状态执行什么动作没有关系:V′π(s)=Vπ(s)+Φ(s)V'^\pi(s)=V^\pi(s)+\Phi(s)V′π(s)=Vπ(s)+Φ(s)0️⃣前提与记号(先统一)原始奖励 :r(s,a,s′)r(s,a,s')r(s,a,s′)Shaping后奖励:r′(s,a,s′)=r(s,a,s′)+γΦ(s′)−Φ(s)r'(s,a,s')=r(s,a,s')+\gamma\Phi 换句话说:Potentialshaping不是“随便加奖励”,而是精心构造的“可积项”。 7️⃣一句话总结(严格版)Potentialshaping的奖励在时间维度上形成望远镜求和,使得shaping对整条轨迹的累计影响只剩下初始状态的Φ(s)\Phi(s)Φ(s),从而导致价值函数的状态相关常数平移

    12310编辑于 2026-02-11
  • 来自专栏Android 技术栈

    Kotlin | 8.高阶函数:Lambda作为参和返回值

    fun processTheAnswer(f: (Int) -> Int) { println(f(42)) } /*Java8* )) { if (index > 0) result.append(separator) // 调用作为实参传递给 transform 参的函数

    1.4K10发布于 2021-03-02
领券