强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。
随着大语言模型从简单文本生成向复杂推理过渡,强化学习(RL)发挥着核心作用。像分组相对策略优化(GRPO)这样的算法推动了这一转变,使推理级模型能够通过迭代反馈...
一个经过优化的单一LLM统一了之前需要多个模型才能完成的任务,并可作为医学化学家的推理伙伴。
事情的起因颇具戏剧性。2026年3月31日,Anthropic公司引以为傲的核心产品Claude Code,其源码竟被一位华人安全研究员公之于众,足足51.2万...
基于结构药物设计(Structure-Based Drug Design, SBDD)正在快速进入生成式人工智能时代。近年来,扩散模型、等变图神经网络等方法的发...
这一系列连贯的、动态的决策,才是交易的核心。今天,我将介绍一位能完成这一切的终极玩家——强化学习。
在此对 YouMing Zhang 对本文所作的贡献表示诚挚感谢,他在 东北大学 完成了 信息与计算科学专业 的学业,专注 人工智能领域。擅长 Python、M...
仿真中的全身强化学习训练提供了底层的运动智能,GR00T N1.6通过其更高层的VLA策略使用和协调这些智能。在Isaac Lab中使用强化学习训练出的全身控制...
仿真中的全身强化学习提供了GR00T N1.6使用并通过其高层VLA策略协调的低层运动智能。在Isaac Lab中使用强化学习训练的全身控制器生成类人的、动态稳...
Composer 2 是一个前沿级别的模型,专门为智能软件工程而设计。它不仅仅是回答孤立的聊天查询,而是能够浏览整个代码仓库、运行 shell 命令、编辑文件,...
今天来介绍一篇使用蛋白质语言模型设计AAV衣壳的文章:这篇论文开发了一种结合蛋白质语言模型和强化学习的生成式设计框架,旨在生成兼具高度序列新颖性与功能活性的新型...
ICLR (International Conference on Learning Representations) 国际学习表征会议,是机器学习与深度学习领...
这个问题挺有意思。因为这个问题看似简单,但要答好其实得把整个对齐流程的底层逻辑理清楚。
核心设计哲学:通过inpainting技术解决合成可行性与新颖性之间的固有矛盾——反应组合器保障合成可行,inpainting模型赋予骨架跳跃能力,强化学习引导...
BioReason-Pro 整体架构与训练流程。模型整合 ESM3 蛋白质嵌入、GO 图编码器和生物学上下文信息,在 GPT-5 生成的合成推理轨迹上进行监督微...
作为强化学习之父、图灵奖得主,Sutton 在 RLC 2025 的讲台上,再次抛出了一套宏大的构想,直指 AI 的终极问题——超级智能如何从经验中涌现?
拿到 Kimi Researcher 的内测资格一周多了,高强度测了很多 case。
《欢迎来到经验时代》也许是今年 AI 领域最重要的关于训练数据的纲领性檄文。两位重量级作者,一位是图灵奖得主、现代强化学习的奠基人之一、被誉为「强化学习教父」的...
自 OpenAI 推出 o1 模型以来,推理已经逐渐成为了大语言模型的必备能力。在推理能力背后,强化学习(RL)扮演着越来越重要的角色,但也对训练系统提出了新的...
它是迄今为止最大的开源视觉/视觉语言基础模型(14B),在视觉感知、跨模态检索、多模态对话等广泛任务上实现了32项最先进的性能。是绝对的开源最能打的多模态与视觉...