首页
学习
活动
专区
圈层
工具
发布
首页标签强化学习

#强化学习

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。

如何实现大模型后训练帮助AI在企业落地

春哥大魔王

从最初的RLHF(人类反馈强化学习),转向RLVR(基于可验证反馈强化学习),再转向前沿的“自然语言奖励”。

3310

通过"难度预判"机制提升小语言模型的数学推理能力

CreateAMind

Enhancing Math Reasoning in Small-sized LLMs via Preview Difficulty-Aware Interv...

4210

活性物质的强化学习

CreateAMind

活性物质是指由自我驱动实体组成的系统,这些实体消耗能量以产生运动,表现出复杂的非平衡动力学,挑战了传统模型。随着机器学习的快速发展,强化学习(RL)已成为应对活...

2210

TBC-HRL:受生物启发的稳定且可解释的分层强化学习框架

CreateAMind

分层强化学习(HRL)通过分解复杂的决策过程,在长时域和稀疏奖励任务中表现出有效性,但由于层级间不稳定、子目标调度效率低下、响应延迟以及可解释性差等问题,其在现...

1910

自适应非局域可观测量的量子强化学习

CreateAMind

Quantum Reinforcement Learning by Adaptive Non-local Observables

2710

情绪的机制分析

CreateAMind

Deeply felt affect- the emergence of valence in deep active inference

3710

大型推理模型的强化学习综述(1-4章)

CreateAMind

A Survey of Reinforcement Learning for Large Reasoning Models

11120

元强化学习教程 A Tutorial on Meta-Reinforcement Learning(1-3章)

CreateAMind

元强化学习教程 A Tutorial on Meta-Reinforcement Learning

1910

强化学习在自动化优化中的应用综述

CreateAMind

A Survey of Reinforcement Learning for Optimization in Automation

1710

相似性驱动加权的终身强化学习模型

CreateAMind

Lifelong Reinforcement Learning with Similarity-Driven Weighting by Large Models

3210

推理模型更容易产生幻觉吗? Are Reasoning Models More Prone to Hallucination?

CreateAMind

Are Reasoning Models More Prone to Hallucination?

2510

机器人终身强化学习中的知识保存和组合

CreateAMind

https://www.nature.com/articles/s42256-025-00983-2

2110

智谱:GLM-5 从擅长编码进化到复杂系统工程和长期智能体任务

技术人生黄勇

在后期训练中,我们超越了标准的有监督微调。我们实施了一个顺序的强化学习流程——从推理强化学习开始,接着是智能体强化学习,最后是通用强化学习。

4710

认知引导的前后探索 Epistemically-guided forward-backward exploration

CreateAMind

Epistemically-guided forward-backward exploration

2610

最新综述:基于反馈的强化学习

CreateAMind

基于人类反馈的强化学习(RLHF)已成为部署最新机器学习系统的重要技术和叙事工具。在本书中,我们希望为具备一定量化背景的读者提供对核心方法的简明介绍。本书首先回...

1710

安全强化学习的可验证性:综述与基准

CreateAMind

Provably Safe Reinforcement Learning: Conceptual Analysis, Survey, and Benchmark...

3810

随机世界元训练的大规模情境强化学习

CreateAMind

Towards Large-Scale In-Context Reinforcement Learning by Meta-Training in Random...

2410

DIME:基于扩散的最大熵强化学习

CreateAMind

DIME:Diffusion-Based Maximum Entropy Reinforcement Learning DIME:基于扩散的最大熵强化学习

1110

训练样本在大型语言模型中进行推理的强化学习

CreateAMind

Reinforcement Learning for Reasoning in Large Language Models with One Training ...

5210

SFT会记忆,RL能泛化:基础模型后训练的比较研究

CreateAMind

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-trai...

4210
领券