搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏DotNet 致知
39_数据塑形
http://mpvideo.qpic.cn/0bf2vqasoaab4eamozwlrfpvdlgde6wacjya.f10002.mp4?
24820编辑于 2022-03-29
强化学习基础理论与框架：奖励函数设计原则与技术
稀疏奖励的奖励塑形技术在强化学习领域，稀疏奖励问题一直是算法训练面临的重要挑战之一。奖励塑形的核心机制奖励塑形技术通过设计辅助奖励函数 R′(s)R'(s) 来引导学习过程，其数学表达为 R′(s)=R(s)+F(s,s′)R'(s)=R(s)+F(s,s') ，其中 FF 为塑形函数这意味着我们可以安全地添加塑形奖励而不改变问题本质。可微分实现：2025年NeurIPS会议提出的Diff-PBRS框架将势函数参数化为神经网络，通过端到端训练实现自动塑形。工程实践中的关键考量在实际系统部署时，奖励塑形需要特别注意三个维度：1）塑形强度与稀疏主奖励的平衡，避免智能体过度依赖人工设计的辅助信号；2）塑形函数的泛化能力，确保在环境动态变化时仍能有效引导；3）当前最前沿的研究正朝着多智能体稀疏奖励塑形、基于大语言模型的自动塑形函数生成等方向发展。
1.6K10编辑于 2025-08-27
来自专栏新智元
「人造太阳」精准放电！DeepMind实现AI可控核聚变新突破
而且他们试图通过奖励塑形来提高X点位置的准确性。以下是针对X点位置准确性的奖励塑形方法： 1. 等离子体形状精度的奖励塑形研究人员检查了奖励塑形在两种不同配置和目标上所带来的精度改进：减少形状稳定任务中的LCFS误差和提高「snowflake_to_perfect」任务配置中的X点精度。研究人员首先测试了一个控制策略，该策略通过在奖励塑形部分中讨论的奖励塑形方法来减少shape_70166稳定任务中的LCFS误差。，就像在奖励塑形部分描述的Fixed Reward一样。 X点位置精度的奖励塑形接下来，研究人员将比较奖励塑形对更复杂的「snowflake」配置的影响，如下图所示。该策略的训练奖励被塑形以增加X点控制的准确性。
89130编辑于 2023-08-07
来自专栏软件资源
奇妙塑形，PowerShape 2022助您实现高精度的建模与加工+全版本安装包
Powershape 2022是一款功能强大的CAD软件，可以用于数控编程和模具设计。本软件的设计理念是帮助用户快速创建复杂的CAD模型和NC编程，提高工作效率。此软件集成了先进的模型构建、模具和模块化设计、数控编程等功能特点，可以在各种行业中得到广泛的应用。
65420编辑于 2023-04-19
来自专栏机器之心
边学边练，推理觉醒：LUFFY让强化学习即学即用！
LUFFY 在强化学习框架中引入外部优质推理轨迹，通过「策略塑形」机制，融合自身尝试（on-policy）与专家示范（off-policy）的优势。技术亮点：混合策略与策略塑形 LUFFY 的实现依托于 GRPO 算法框架，并围绕两项核心机制展开： 1. 混合策略训练：同时利用在线轨迹和离线示范，引导模型向高奖励动作靠拢，同时保留自身有效尝试。 2. 策略塑形函数（图 6）：通过非线性加权机制强化对关键步骤的学习，防止模型过早收敛、策略熵降低，保持持续探索。图 5 展示了策略塑形对梯度更新的非线性权重以及对模型探索的影响。图表 5. 策略塑形在 LUFFY 中的作用效果。左图：训练过程中的策略熵对比。中图：不同方法下损失函数基于决策概率的权重分配。右图：基于决策概率的梯度加权情况对比。策略塑形函数 f () 可被看作正则约束下的重要性采样，鼓励模型关注低概率、但可能重要的行为决策。实验结果：即学即练，举一反三图表 7.
39310编辑于 2025-05-06
来自专栏CPS推广奖励
23年2月推广大使额外奖励规则
----一、新春采购节新手推广大使邀新奖励2月16日0点 - 2月28日24点，新会员和1星会员的推广大使领取任务后，拉新客户数≥2，且单笔订单金额≥¥60，即可获得2次抽奖机会。图片二、新春采购节高价值客户额外返佣奖励2月16日0点 - 2月28日24点，推广高价值订单可额外奖励返佣5%，单笔佣金上限限时膨胀至¥5000！四、活动说明1、参与方式：推广大使参与【新春采购节新手推广大使邀新奖励】和【新春采购节高价值客户额外返佣奖励】两个活动，都需在活动有效期内（2月16日 - 2月28日）主动领取任务，若推广达标但在活动结束前未领取任务点击前往领取任务图片2、奖励发放：额外奖励现金及抽奖红包将随2月月结佣金合并打款发放，到账时间和金额根据2月会员星级按月分比例付款，额外激励不计入月佣金封顶。 3、如后续（2月月结之前）发生订单退款，需重新计算额外奖励的推广客户数是否达标，会导致推广大使已经获取的奖励失效，需扣除相应的奖励。
43.3K210编辑于 2023-02-27
形塑新闻：AI时代新闻业的7个变化｜腾讯研究院3万字报告
我们把这份小小的报告命名为《形塑新闻：AI 时代新闻业的 7个变化》。限于精力和视野，我们无法关注新闻业在这个时代的发展全貌，只能通过一些小趋势管窥这个特殊行业正在发生的一些变化。 AI时代新闻业的7个变化：‍‍1.AIGC渗入：新闻内容生产遭受冲击2.内容生态：AI假新闻污染新闻真实3.平台转移：短视频新闻业快速崛起4.分发革命：传统内容分发格局重塑5.技术替代：新技术冲击行业裁员与洗牌 [2]除此之外，大模型可以辅助记者进行采访音视频内容的识别与整理、优化创作流程、提炼生成更多元、独特的内容视角。 (三)“新闻软化”的趋势值得警惕短视频的媒介特性，以及算法推送的技术机制，型塑着短视频新闻的内容与形式风格。 1988年，“美国编剧协会”（Writers Guild of America，WGA）的罢工持续了53天；2007年的罢工则从11月一直持续到第二年的2月。
1.9K10编辑于 2024-11-11
Nat. Comput. Sci. | TANGO: 面向可合成性约束的分子生成直接优化框架
通过这种奖励塑形机制，生成模型可以逐步学习如何在合成路径中引入目标构建块。该奖励取所有合成图节点中的最大值，并通过强化学习优化。图2：在起始原料约束与发散合成约束（由非商业公共中间体一步合成至多样化高奖励分子）下生成的示例分子。分布学习与生成行为分析从分布角度看，生成模型在强化学习后显著改变了生成分子的概率分布。 COX-2 案例研究在一个更接近真实药物设计场景的案例中，研究人员强制在生成分子的合成路径中包含苯磺酰胺结构单元，该基团已知与 COX-2 选择性相关。图4：COX-2 案例研究。讨论本研究提出的 TANGO 奖励函数为生成式分子设计提供了一种直接优化受限可合成性的新范式。总体而言，研究人员表明，通过奖励塑形与强化学习结合，通用生成模型可以有效适应现实化学约束条件。这为绿色化学、工业副产物再利用以及复杂药物合成网络设计提供了新的技术路径。
17710编辑于 2026-03-04
Nat. Comput. Sci. | TANGO: 面向可合成性约束的分子生成直接优化框架
通过这种奖励塑形机制，生成模型可以逐步学习如何在合成路径中引入目标构建块。该奖励取所有合成图节点中的最大值，并通过强化学习优化。图2：在起始原料约束与发散合成约束（由非商业公共中间体一步合成至多样化高奖励分子）下生成的示例分子。分布学习与生成行为分析从分布角度看，生成模型在强化学习后显著改变了生成分子的概率分布。 COX-2 案例研究在一个更接近真实药物设计场景的案例中，研究人员强制在生成分子的合成路径中包含苯磺酰胺结构单元，该基团已知与 COX-2 选择性相关。图4：COX-2 案例研究。讨论本研究提出的 TANGO 奖励函数为生成式分子设计提供了一种直接优化受限可合成性的新范式。总体而言，研究人员表明，通过奖励塑形与强化学习结合，通用生成模型可以有效适应现实化学约束条件。这为绿色化学、工业副产物再利用以及复杂药物合成网络设计提供了新的技术路径。
10710编辑于 2026-03-06
来自专栏强化学习专栏
【RL Latest Tech】安全强化学习（Safe RL）：理论、方法与应用
2.什么是安全强化学习？安全强化学习是强化学习的一个分支，重点在于在学习过程中及部署过程中满足一定的安全约束。这些安全约束可以是物理、伦理或法律层面的限制。 2. 风险敏感优化在传统强化学习中，优化目标通常是最大化期望回报。然而，在安全强化学习中，我们需要**风险敏感（Risk-Sensitive）**的优化目标。奖励塑形与惩罚机制为了引导智能体学习到安全的行为，奖励塑形（Reward Shaping）是一种常见的技术。 2. 医疗决策在医疗领域，强化学习可以应用于个性化治疗方案的制定。然而，医疗决策涉及患者健康的风险，因此需要特别注意安全问题。通过引入安全约束、风险敏感优化和奖励塑形等技术，安全强化学习为智能体在复杂和不确定的环境中做出安全且有效的决策提供了重要工具和方法。
94710编辑于 2024-12-03
来自专栏刘旷专栏
颜值经济转向身材经济，医美的第二曲线来了
另一方面，美体塑形的成效相比以往更快，尤其是伴随相关新技术的不断推陈出新，美体塑形也更加安全高效，消费者的权益也将会更有保障。头部平台引领下，美体塑形迎来新发展而在新氧这类头部医美平台的推动下，也将对整个美体塑形行业产生积极的推动作用。首先，头部专业平台将会帮助美体塑形市场更加专业、规范和安全。美体塑形正在成为医美“第二曲线” 对于整体医美行业而言，美体塑形也将在更多的层面成为拉动整个医美消费增长的“第二曲线”。其一，美体塑形将加速医美平台的“破圈”。进行美体塑形之后如何保养？也就是说，借助美体塑形，未来医美可以和大健康相结合。通过对塑形前后更多场景的渗透，保证前期咨询、中期塑形、后期保养的全链条服务体系，拓宽平台的业务边界。其二，美体塑形也将会更加多元化和个性化。就像网红脸千篇一律没有特色一样，每个人的美是有其独特性的，而美体塑形也是如此。并不是所有人都适合蜂腰长腿，在健康的前提下，多元化、个性化也将成为美体塑形的新趋势。
4.6K00发布于 2020-11-18
NeurIPS强化学习挑战赛冠军揭晓
PPG算法进行了多项修改在从未见过的环境中实现了最佳泛化性能使用了超参数调优优化方法样本效率赛道获胜团队：Adrien Gaidon和Blake Wulfe在辅助阶段使用数据增强，但在策略阶段不使用实验了奖励归一化和奖励塑形技术实现了最佳的样本效率
19910编辑于 2025-11-01
来自专栏全栈程序员必看
多边形内有2枚钉子的图形_当多边形内没有钉子
Sample Input 3 1 0 0 0 5 5 0 10 2 3 2 4 4 3 1 1 2 1 3 2 2 0 题解判断点在多边形内部 #include<bits/stdc++.h> using Line(){ } Line(Point p1,Point p2):p1(p1),p2(p2){ } Line(Point p,double angle){ p1 = p; if(sgn(angle - pi / 2) == 0)p2 = (p1 + Point(0,1)); else p2 = (p1 v){ return sgn(Cross(p - v.p1,p - v.p2)) == 0 && Dot(v.p1 - p,v.p2 - p) <= 0; } bool Point_In_Polygon = p[(i + 1) % n]; int dir = Cross(p2 - p1,pt - p1); int u = p1.y - pt.y,v = p2.y - pt.y
76420编辑于 2022-09-22
来自专栏人工智能与演化计算成长与进阶
近年来强化学习分类综述大全，不看后悔，收藏为先！
off-policy rl 策略估计逆强化学习强化学习、模仿学习分层强化学习多任务强化学习 adversarial rl Probabilistic rl 分布式强化学习 Sim-to-Real 奖励塑形强化学习状态表示贝叶斯强化学习强化学习组合优化迁移学习强化学习课程学习强化学习可解释的强化学习动态环境强化学习 Human advice强化学习 NLP&rl 强化学习实验强化学习的应用 1.机器人 2. Sim-to-Real Transfer in Deep Reinforcement Learning for Robotics: a Survey arxiv.org/pdf/2009.1330 奖励塑形 pdf/2009.0968 Emotion in Reinforcement Learning Agents and Robots: A Survey arxiv.org/pdf/1705.0517 2. Survey https://arxiv.org/pdf/2008.05074.pdfarxiv.org weixin.qq.com/g/AwYAAO5
(二维码自动识别) 满200的话拉您进2群
1.4K31发布于 2021-06-09
来自专栏R语言数据分析指南
ggplot2绘制多边形热图
欢迎关注R语言数据分析指南 ❝本节通过一个案例来介绍如何绘制多边形热图，整个过程仅参考。希望对各位观众老爷能有所帮助。 == "Fit for duty", if_else(severity == 0, "grey35", "grey85"), pal[severity + 1]), treat_case = 2 - study_id %% 2) %>% # 计算治疗案例 rowwise() %>% # 对每一行应用以下变换 mutate( # 根据治疗案例计算 x 坐标 x 1 ~ list(c(as.numeric(symptom), as.numeric(symptom) + 1, as.numeric(symptom))), treat_case == 2 expand.grid(x = 1:5 + 0.5, y = 1:6 + 0.5) 数据可视化 ggplot(scurvy_long %>% unnest(c(x, y))) + # 绘制多边形，
60010编辑于 2023-12-20
来自专栏优雅R
「R」数据可视化2 : 箱形图
什么是箱形图箱形图（Box-plot）是一种用作显示一组数据分散情况的统计图，因形状如箱子而得名。除了生信领域，该图在其他领域也经常被使用。箱形图能显示出一组数据的最大值(Maximum)、最小值(Minimum)、中位数(Median)及上下四分位数(1st/3rd Quartile),同时还可以显示逸出值(Outlier)。 ? 箱形图怎么画 (1) 需要什么格式的数据我们需要的数据只要两列，一列为x，一列为y。本次我们使用R中提供的iris数据。 ? (2) 如何使用ggplot2做箱形图利用ggplot2画图的核心命令是geom_boxplot。我们先来尝试做一个最最基础也是最丑的boxplot图。 #加载包 library(ggplot2) #作图 ggplot(iris,aes(x=Species,y=Sepal.Length))+ geom_boxplot() ?
2.8K10发布于 2020-07-06
来自专栏计算机视觉理论及其实现
cv2.fillConvexPoly()与cv2.fillPoly()填充多边形
cv2.fillConvexPoly()cv2.fillConvexPoly()函数可以用来填充凸多边形,只需要提供凸多边形的顶点即可.我们来画一个三角形img = np.zeros((1080, 1920 , 3), np.uint8)triangle = np.array([[0, 0], [1500, 800], [500, 400]])cv2.fillConvexPoly(img, triangle cv2.fillPoly()cv2.fillPoly()函数可以用来填充任意形状的图型.可以用来绘制多边形,工作中也经常使用非常多个边来近似的画一条曲线.cv2.fillPoly()函数可以一次填充多个图型 np.zeros((1080, 1920, 3), np.uint8)area1 = np.array([[250, 200], [300, 100], [750, 800], [100, 1000]])area2 = np.array([[1000, 200], [1500, 200], [1500, 400], [1000, 400]])cv2.fillPoly(img, [area1, area2], (255
4.2K20编辑于 2022-09-02
来自专栏智能相对论
塑“计算之城、安全之都”，长沙“1+2+N”产业集群中有两颗“压舱石”
年初，长沙市工信局发布《长沙市打造国家重要先进制造业高地三年行动计划（2021—2023年）》，将围绕建设国家重要先进制造业高地，培育一批具有核心竞争力和国外影响力的产业集群，大力推进“1+2+N”产业集群新格局 2、“安全”筑牢数字基础，维持产业发展的“稳” 数字化的加速发展，信息安全成为了摆在台面上的一大难题。 “技术安全是网络安全的核心，是打造网络强国的必要条件。”中国工程院院士倪光南曾表示。 2、“大家长”开路护航，政策加码助推产业奋进武汉，中部第一城，2013年成为中国软件名城创建试点城市。，连续三年按比例给予奖励；中小型企业鼓励参与技术标准制定，给予5万至50万元奖励。 2、两大产业集群“发力”，共筑发展蓝图现今的长沙正加速航行在“软件名城”的路上，2020年长沙软件行业企业新增超4000家，企业总数3万余家，全市共签约引进软件产业重点项目52个，总投资近120亿元，
47130发布于 2021-11-23
来自专栏DeepHub IMBA
ProRL：基于长期强化学习让1.5B小模型推理能力超越7B大模型
奖励机制采用二元信号设计，正确答案获得奖励1，错误或格式不正确的答案获得奖励0。模型通过"让我们逐步思考并在\boxed{}中输出最终答案"的提示格式生成回答。系统改进了代码执行环境，能够运行所有测试用例而不是在首次错误时终止，并根据通过测试用例的比例分配奖励，以支持连续性奖励反馈。编译失败、包含语法错误或总执行时间超过5秒的提交将被分配零奖励。这些重置操作还允许调整超参数设置以及引入新的训练数据和奖励塑形机制。上图展示了训练过程中KL散度的变化情况。训练阶段2：对参考策略执行硬重置操作，以与阶段1相同的设置恢复训练过程，最大响应长度维持在8k标记。训练阶段4和5：通过惩罚未正确终止的响应引入奖励塑形机制，这种方法促进了正确的生成行为，从而适度减少了响应长度。训练阶段6和7：将推理计数从16增加到32，执行了两次硬重置操作。
40610编辑于 2025-08-20
来自专栏CreateAMind
大型推理模型的强化学习综述（1-4章）
在上述四类奖励的基础上，我们在 §3.1.5 进一步探讨“奖励塑形”，分析如何组合或转换多样化的奖励信号以促进学习。 3.1.5 奖励塑形要点总结：奖励塑形将稀疏信号丰富为稳定、信息量充足的梯度，以支持 LLM 训练。这一过程被称为“奖励塑形”[Goyal 等，2019；Gupta 等，2022；Hu 等，2020；Xie 等，2023]，可分为基于规则的奖励塑形和基于结构的奖励塑形。基于规则的奖励塑形。与仅依赖单个样本的基于规则方法不同，基于结构的奖励塑形利用列表级或集合级基线，在一组候选样本上计算奖励。机制分析进一步指出，RL 的增益常源于熵塑形或奖励代理。
65920编辑于 2026-03-11

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

39_数据塑形

强化学习基础理论与框架：奖励函数设计原则与技术

「人造太阳」精准放电！DeepMind实现AI可控核聚变新突破

奇妙塑形，PowerShape 2022助您实现高精度的建模与加工+全版本安装包

边学边练，推理觉醒：LUFFY让强化学习即学即用！

23年2月推广大使额外奖励规则

形塑新闻：AI时代新闻业的7个变化｜腾讯研究院3万字报告

Nat. Comput. Sci. | TANGO: 面向可合成性约束的分子生成直接优化框架

Nat. Comput. Sci. | TANGO: 面向可合成性约束的分子生成直接优化框架

【RL Latest Tech】安全强化学习（Safe RL）：理论、方法与应用

颜值经济转向身材经济，医美的第二曲线来了

NeurIPS强化学习挑战赛冠军揭晓

多边形内有2枚钉子的图形_当多边形内没有钉子

近年来强化学习分类综述大全，不看后悔，收藏为先！

ggplot2绘制多边形热图

「R」数据可视化2 : 箱形图

cv2.fillConvexPoly()与cv2.fillPoly()填充多边形

塑“计算之城、安全之都”，长沙“1+2+N”产业集群中有两颗“压舱石”

ProRL：基于长期强化学习让1.5B小模型推理能力超越7B大模型

大型推理模型的强化学习综述（1-4章）

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐