首页
学习
活动
专区
圈层
工具
发布
首页标签强化学习

#强化学习

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。

FP8端到端精度强化学习训练技术

用户11764306

随着大语言模型从简单文本生成向复杂推理过渡,强化学习(RL)发挥着核心作用。像分组相对策略优化(GRPO)这样的算法推动了这一转变,使推理级模型能够通过迭代反馈...

1300

定制Nova模型提升药物发现分子特性预测

用户11764306

一个经过优化的单一LLM统一了之前需要多个模型才能完成的任务,并可作为医学化学家的推理伙伴。

800

从Claude Code开盒第一人聊聊交易的残酷

子晓聊技术

事情的起因颇具戏剧性。2026年3月31日,Anthropic公司引以为傲的核心产品Claude Code,其源码竟被一位华人安全研究员公之于众,足足51.2万...

5710

Sci. Adv.|强化学习引导的半柔性分子扩散模型用于基于结构的分子设计

DrugOne

基于结构药物设计(Structure-Based Drug Design, SBDD)正在快速进入生成式人工智能时代。近年来,扩散模型、等变图神经网络等方法的发...

9710

强化学习:训练一个AI“交易之神”

子晓聊技术

这一系列连贯的、动态的决策,才是交易的核心。今天,我将介绍一位能完成这一切的终极玩家——强化学习。

10210

强化学习与Q-Learning算法原理及Python迷宫导航实战:从MDP到Deep Q-Learning的完整指南 | 附代码与教程文档

拓端

在此对 YouMing Zhang 对本文所作的贡献表示诚挚感谢,他在 东北大学 完成了 信息与计算科学专业 的学业,专注 人工智能领域。擅长 Python、M...

23110

英伟达GR00T N1.6人形机器人模拟到现实训练技术

用户11764306

仿真中的全身强化学习训练提供了底层的运动智能,GR00T N1.6通过其更高层的VLA策略使用和协调这些智能。在Isaac Lab中使用强化学习训练出的全身控制...

13810

基于Sim-to-Real的通用人形机器人技术架构

用户11764306

仿真中的全身强化学习提供了GR00T N1.6使用并通过其高层VLA策略协调的低层运动智能。在Isaac Lab中使用强化学习训练的全身控制器生成类人的、动态稳...

12410

Composer 2:基于强化学习的智能编程体训练

用户11764306

Composer 2 是一个前沿级别的模型,专门为智能软件工程而设计。它不仅仅是回答孤立的聊天查询,而是能够浏览整个代码仓库、运行 shell 命令、编辑文件,...

12110

蛋白语言模型能设计 AAV 吗?关键不在生成,而在如何兼顾可行性与新颖性

Tom2Code

今天来介绍一篇使用蛋白质语言模型设计AAV衣壳的文章:这篇论文开发了一种结合蛋白质语言模型和强化学习的生成式设计框架,旨在生成兼具高度序列新颖性与功能活性的新型...

12110

实验室十篇论文被ICLR 2026录用

Amusi

ICLR (International Conference on Learning Representations) 国际学习表征会议,是机器学习与深度学习领...

24610

面试官:SFT训练到什么程度,才值得做RL?

烟雨平生

这个问题挺有意思。因为这个问题看似简单,但要答好其实得把整个对齐流程的底层逻辑理清楚。

19210

Nat. Commun. | ClickGen:基于模块化反应与强化学习的可合成化学空间定向探索

DrugIntel

核心设计哲学:通过inpainting技术解决合成可行性与新颖性之间的固有矛盾——反应组合器保障合成可行,inpainting模型赋予骨架跳跃能力,强化学习引导...

9710

BioReason-Pro:首个蛋白质功能推理大模型,注释质量超越 UniProt 人工审编

DrugOne

BioReason-Pro 整体架构与训练流程。模型整合 ESM3 蛋白质嵌入、GO 图编码器和生物学上下文信息,在 GPT-5 生成的合成推理轨迹上进行监督微...

11610

大模型是迷失方向?强化学习之父 Rich Sutton 提出最新 OaK 架构,通往超级智能的新宏图

不二小段

作为强化学习之父、图灵奖得主,Sutton 在 RLC 2025 的讲台上,再次抛出了一套宏大的构想,直指 AI 的终极问题——超级智能如何从经验中涌现?

9010

Kimi 深度研究一手实测,横评对决 ChatGPT、Gemini Deep Research

不二小段

拿到 Kimi Researcher 的内测资格一周多了,高强度测了很多 case。

52110

强化学习之父与 AlphaGo 之父联手研究:AI 正告别「人类数据时代」,奔向「经验时代」

不二小段

《欢迎来到经验时代》也许是今年 AI 领域最重要的关于训练数据的纲领性檄文。两位重量级作者,一位是图灵奖得主、现代强化学习的奠基人之一、被誉为「强化学习教父」的...

11310

解析最新开源的 AReaL-boba² 框架:异步强化学习在大型推理模型训练中的应用

不二小段

自 OpenAI 推出 o1 模型以来,推理已经逐渐成为了大语言模型的必备能力。在推理能力背后,强化学习(RL)扮演着越来越重要的角色,但也对训练系统提出了新的...

16210

InternVL3.5-开源多模态视觉大模型王者

OpenCV学堂

它是迄今为止最大的开源视觉/视觉语言基础模型(14B),在视觉感知、跨模态检索、多模态对话等广泛任务上实现了32项最先进的性能。是绝对的开源最能打的多模态与视觉...

18010
领券