
南京大学新型软件技术国家重点实验室、南京大学智能科学技术学院、阿里巴巴高德地图

将基准定义为轨迹成对偏好任务,每个样本包含工具环境、多轮用户交互、两条候选轨迹,依据规划质量、工具接地性、恢复行为、拒绝质量等标准给出金标准偏好标签,支持成对比较与单点打分两种评估模式。
本研究提出Plan-RewardBench轨迹级奖励建模基准,填补了工具型智能体长时序轨迹奖励模型评估的空白,通过严谨的数据集构建与统一测评,证实现有奖励模型在轨迹级判别上存在显著缺陷,长时序规划、动态约束跟踪、安全拒绝等能力亟待提升,为智能体对齐研究提供了关键测评与数据支撑。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。