强化学习 - 标签 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

首页标签强化学习

#强化学习

强化学习是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。

组合优化三剑客：TSP、CVRP 和 FFSP

掘金安东尼 4天前2026-07-25 09:48:47

在强化学习、图神经网络甚至大模型应用的各类论文中，TSP、CVRP 和 FFSP 这三组缩写几乎屡见不鲜。它们是组合优化问题中的经典基准测试集，广泛用于验证优化...

9210

DecentMem 双池记忆：借鉴强化学习的利用与探索设计，Token 消耗降了近一半

deephub 4天前2026-07-24 20:47:28

基于大语言模型的多智能体系统有一个问题就是所有智能体共享一个存储库。这样会限制着性能、可扩展性和多样性。

7710

张小珺Jùn 对话 Kimi 杨植麟，爬一座没有尽头的山

不惑

腾讯云TDP ｜产品KOL (已认证)

7天前2026-07-21 14:27:43

然后他说了一个让我停下来的判断。不管是基于长思考的强化学习，还是Agent的强化学习，都指向同一个东西，test-time scaling，测试时扩展。

30510

Agent持续学习：提示词、模型权重与外部记忆怎么选？

唐国梁Tommy 8天前2026-07-21 08:13:01

到了这项任务，GRPO 不再占优。论文给出的解释是：组内奖励排序一旦不可靠，强化学习可能反复强化错误答案。提示词方法也会归纳出“关注增长、风险和现金流”一类通用...

8710

强化学习状态抽象的组合行为语义

CreateAMind 8天前2026-07-20 21:11:38

Compositional Behavioral Semantics for State Abstraction in Reinforcement Learni...

7800

可验证环境：万字长文论述AI智能进化的高效引擎

jhonye

腾讯｜开发工程师 (已认证)

10天前2026-07-19 00:28:52

为什么有些领域群智涌现、进步神速，而另一些领域却在原地打转？答案或许不在智能体本身，而在于它们所处的“验证环境”——一套决定智能进化速度与上限的隐形规则。从围棋...

14810

AI 是怎么学会"作弊"的？强化学习奖励错位的数学本质、攻击分类与防御体系

乐小野

石化盈科信息技术有限责任公司｜算法工程师 (已认证)

12天前2026-07-16 20:12:23

2026 年 7 月，OpenAI 发布的 GPT-5.6 Sol 被独立评测机构 METR 检测出reward-hacking 率创下公开模型新高——它会提取...

13410

AI叫你"亲"，你信几分？

IT蜗壳-Tango 14天前2026-07-14 22:00:22

不是随便起的。豆包是食物，听起来暖的、日常的、手边就有的；Kimi像个名字，元宝像过年的好意头，千问像书生的执拗。每个名字都在说同一句话：别怕，我不是冷冰冰的机...

14900

JACS Au | SynPROTAC模型实现可合成PROTAC分子的理性设计

DrugOne 15天前2026-07-14 13:33:34

蛋白质降解靶向嵌合体（PROTAC）作为一种新兴的疾病相关蛋白降解技术，在药物发现领域展现出巨大潜力。然而，其复杂的双功能分子结构使得设计兼具高生物活性和良好合...

11820

OpenClaw-RL：边聊边学的智能体变强秘笈

用户10637292 15天前2026-07-13 21:21:11

标题：OpenClaw-RL：Train Any Agent Simply by Talking

10210

多智能体强化学习进展I

用户10637292 15天前2026-07-13 21:07:35

摘要：开发在动态开放世界场景中长期合作的智能代理是多代理系统的一大挑战。传统的多智能体强化学习（MARL）框架，如集中训练分散执行（CTDE），在可扩展性和灵活...

7900

Nat. Mach. Intell. | 强化学习引导生成模型发现新型晶体结构

DrugOne 16天前2026-07-13 11:22:05

强化学习提供了一种解决这一错位的思路。与似然训练不同，强化学习可以直接优化明确设定的奖励，例如新颖性、稳定性、多样性或目标性质。研究人员因此提出 Chemele...

9920

强化学习不再靠奖励？组合优化迎来“偏好驱动”新框架

掘金安东尼 16天前2026-07-13 08:57:35

强化学习自然成了候选方案，但现实很快打脸：奖励信号逐渐减弱，导致模型训练中后期“学不会”；动作空间极大，探索效率低、局部最优难逃。

10510

张小珺独家对话姚顺宇：物理学家的小疯时刻

不惑

腾讯云TDP ｜产品KOL (已认证)

18天前2026-07-10 20:45:53

清华物理系毕业的博士跑去搞AI了。而且不是小打小闹，是直接进了Anthropic，然后又跳到了Google DeepMind。

24200

一文读懂RL两大流派：严谨的经典MDP与妥协的RLHF

咕泡科技 21天前2026-07-08 14:14:04

首先纠正一个核心认知偏差：所有强化学习的核心定义完全统一，无论是经典强化学习还是大模型RLHF，本质都是智能体通过与环境持续交互、获取奖励反馈、迭代优化决策策...

9800

Nat. Mach. Intell. | 强化学习引导生成模型发现新型晶体结构

DrugAI 21天前2026-07-07 18:04:45

13010

J. Med. Chem. | AI强化学习驱动的从头药物设计: A2A腺苷受体拮抗剂案例研究

DrugOne 25天前2026-07-03 17:45:23

本文是一篇方法学透明度较高的AI从头药物设计实证研究。研究团队使用 AstraZeneca 开发、Evotec 定制化改造的生成式工具 REINVENT 3.2...

12910

2026 技术观察：隐私计算与联邦学习重新升温，数据不出域成为 AI 协作新方向

用户12583401 26天前2026-07-02 16:14:45

2026 年，企业 AI 协作正在面对一个现实问题：数据越来越重要，但数据不能随便流动。

27210

Sakana AI : 怎么把多个大模型"组队"，让组合体打败任何单个模型？

唐国梁Tommy 2026-06-252026-06-25 21:50:01

过去两年，我们已经习惯了一种叙事：参数更多、数据更大、算力更猛，分数就更高。可越来越多人开始感到一种 "边际疲劳" ——继续把单个模型做大的回报，正变得既昂贵又...

24410

Cursor 训练 Composer 全过程：一个顶尖编程模型是怎么训出来的？

唐国梁Tommy 2026-06-252026-06-25 21:45:25

在强化学习的训练场里，研究者撞见过一件有点荒诞的事：模型能察觉到自己正待在一个"假"环境里——一个为训练而搭起来的仿真沙盒，而不是某个真实用户的电脑。一旦识破，...

14910

#强化学习

组合优化三剑客：TSP、CVRP 和 FFSP

DecentMem 双池记忆：借鉴强化学习的利用与探索设计，Token 消耗降了近一半

张小珺Jùn 对话 Kimi 杨植麟，爬一座没有尽头的山

Agent持续学习：提示词、模型权重与外部记忆怎么选？

强化学习状态抽象的组合行为语义

可验证环境：万字长文论述AI智能进化的高效引擎

AI 是怎么学会"作弊"的？强化学习奖励错位的数学本质、攻击分类与防御体系

AI叫你"亲"，你信几分？

JACS Au | SynPROTAC模型实现可合成PROTAC分子的理性设计

OpenClaw-RL：边聊边学的智能体变强秘笈

多智能体强化学习进展I

Nat. Mach. Intell. | 强化学习引导生成模型发现新型晶体结构

强化学习不再靠奖励？组合优化迎来“偏好驱动”新框架

张小珺独家对话姚顺宇：物理学家的小疯时刻

一文读懂RL两大流派：严谨的经典MDP与妥协的RLHF

Nat. Mach. Intell. | 强化学习引导生成模型发现新型晶体结构

J. Med. Chem. | AI强化学习驱动的从头药物设计: A2A腺苷受体拮抗剂案例研究

2026 技术观察：隐私计算与联邦学习重新升温，数据不出域成为 AI 协作新方向

Sakana AI : 怎么把多个大模型"组队"，让组合体打败任何单个模型？

Cursor 训练 Composer 全过程：一个顶尖编程模型是怎么训出来的？

热门专栏

刘笑江的专栏

腾讯云开发者社区头条

ArrayZoneYour的专栏

WeTest质量开放平台团队的专栏

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

#强化学习

组合优化三剑客：TSP、CVRP 和 FFSP

DecentMem 双池记忆：借鉴强化学习的利用与探索设计，Token 消耗降了近一半

张小珺Jùn 对话 Kimi 杨植麟，爬一座没有尽头的山

Agent持续学习：提示词、模型权重与外部记忆怎么选？

强化学习状态抽象的组合行为语义

可验证环境：万字长文论述AI智能进化的高效引擎

AI 是怎么学会"作弊"的？强化学习奖励错位的数学本质、攻击分类与防御体系

AI叫你"亲"，你信几分？

JACS Au | SynPROTAC模型实现可合成PROTAC分子的理性设计

OpenClaw-RL：边聊边学的智能体变强秘笈

多智能体强化学习进展I

Nat. Mach. Intell. | 强化学习引导生成模型发现新型晶体结构

强化学习不再靠奖励？组合优化迎来“偏好驱动”新框架

张小珺独家对话姚顺宇：物理学家的小疯时刻

一文读懂RL两大流派：严谨的经典MDP与妥协的RLHF

Nat. Mach. Intell. | 强化学习引导生成模型发现新型晶体结构

J. Med. Chem. | AI强化学习驱动的从头药物设计: A2A腺苷受体拮抗剂案例研究

2026 技术观察：隐私计算与联邦学习重新升温，数据不出域成为 AI 协作新方向

Sakana AI : 怎么把多个大模型"组队"，让组合体打败任何单个模型？

Cursor 训练 Composer 全过程：一个顶尖编程模型是怎么训出来的 ？

刘笑江的专栏

腾讯云开发者社区头条

ArrayZoneYour的专栏

WeTest质量开放平台团队的专栏

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Cursor 训练 Composer 全过程：一个顶尖编程模型是怎么训出来的？