首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >T-ARAVLN:大模型给农业机器人当‘翻译官’,提升导航精度

T-ARAVLN:大模型给农业机器人当‘翻译官’,提升导航精度

作者头像
一点人工一点智能
发布2025-11-26 16:05:44
发布2025-11-26 16:05:44
1880
举报

编辑:陈萍萍的公主@一点人工一点智能

摘要:本文提出了一种名为 T-araVLN 的方法,旨在提升农业机器人在视觉与语言导航(VLN)任务中的性能。该方法通过引入一个指令翻译模块,将原始指令中存在的噪声和错误进行清理和修正,使其更加精炼和准确。

在A2A基准测试中,T-araVLN 将导航成功率(Success Rate, SR)从0.47提升至0.63,并将导航误差(Navigation Error, NE)从2.91米降低至2.28米,显示出在农业VLN任务中的先进性能。论文还提供了代码开源地址,便于后续研究与复现。

引言

农业机器人在表型测量、农药喷洒和果实采摘等任务中发挥着越来越重要的作用。然而,目前大多数系统仍依赖人工操作或固定轨道,限制了其机动性和适应性。视觉与语言导航(VLN)技术通过自然语言指令引导智能体在环境中导航,已在室内、城市街道和空中导航等多个领域取得显著成果。

AgriVLN 方法及其配套的A2A基准首次将VLN引入农业领域,但面临指令复杂、噪声多、语义歧义等问题,导致模型在复杂指令理解上表现不佳。

针对这一问题,本文提出通过指令翻译提升指令质量,避免训练式方法在泛化能力上的不足,从而更好地适应农业场景中的语言多样性。

方法

2.1 任务定义

农业视觉与语言导航任务的定义如下:在每个任务片段中,模型接收一段自然语言指令

,其中L为词数。在每个时间步t,模型接收一张前方RGB图像It。模型需同时理解指令和图像,从动作空间 {前进、左转、右转、停止} 中选择最优动作

,引导机器人从起点导航至目标位置。

2.2 T-araVLN 方法框架

T-araVLN 的整体结构如图2所示,主要包括两个核心模块:指令翻译器(Instruction Translator) 和基础导航模型(Base Model)。

2.2.1 指令翻译器

该模块基于大语言模型(LLM)构建,记为转换为书面化、简洁且准确的指令W′。翻译过程可形式化表示为:

其中R表示显式的推理过程,

表示字符串拼接,PT是提示模板,结构为:

其中K∈{1,...,5},代表五种翻译原则:冗余去除(IR)、错误修正(ER)、高低层语义分离(HL)、旋转动作表示(RR)和移动动作表示(RM)。每个原则pi均以 one-shot 示例ei的形式嵌入提示中,以引导模型进行准确翻译。

2.2.2 基础模型

基础模型D沿用 AgriVLN 的架构,在其指令输入层与子任务列表模块之间嵌入了指令翻译器。在每一时间步t,模型接收翻译后的指令W′和图像序列I1到It,输出动作序列预测:

终止条件包括:预测动作为“停止”、动作序列偏离真实序列超过阈值、或达到最大步数。

2.3 评估指标

除传统的成功率(SR) 和导航误差(NE) 外,本文引入 BERTScoreF1以衡量原始指令与翻译后指令之间的语义相似度。该指标用于评估翻译的激进程度:分数越低表示修改幅度越大,翻译策略越激进;分数越高则修改越保守。

实验

3.1 实验设置

所有实验均在 A2A 基准上进行,并使用 API 调用各类大语言模型(如 GPT-4.1、Claude-3.7-sonnet、DeepSeek-r1)。

3.2 定性实验

通过代表性案例(图3)展示 T-araVLN 的翻译效果。原始指令中包含大量冗余和错误,导致语言与视觉对齐困难。经过翻译后,指令变得更加清晰和准确,显著提升了对齐质量和导航效果。

3.3 对比实验

将 T-araVLN 与当前主流方法(SIA-VLN、DILLM-VLN、AgriVLN)以及随机策略、固定策略和人类表现进行对比。结果如表1所示:

在整体A2A任务上,T-araVLN(使用GPT-4.1)取得 SR=0.63、NE=2.28 的成绩,优于所有基线模型。在低复杂度子任务中,SR 从 0.58 提升至 0.80,接近人类水平。结果表明,指令翻译模块显著提升了导航性能,使 T-araVLN 达到当前最优水平。

3.4 消融实验

3.4.1 大语言模型选择

比较了三种LLM驱动的翻译器效果(表1)。Claude-3.7-sonnet 的 BERTScore 较高(0.9105),翻译保守;DeepSeek-r1 的分数较低(0.8980),翻译更激进。GPT-4.1 在保守与激进之间取得最佳平衡,SR 和 NE 表现最优。

3.4.2 翻译原则分析

逐步集成五种翻译原则进行测试(表2、图4)。每种原则单独使用时均能提升性能,其中“移动动作表示”(RM)提升最显著(SR 从 0.47 升至 0.57)。全部原则组合后达到最佳效果(SR=0.63, NE=2.28),表明各原则互补而非互斥。

结论

T-araVLN 通过指令翻译模块显著提升了农业机器人在视觉与语言导航任务中的表现。在A2A基准上,该方法在成功率和导航误差方面均达到最新最优水平,验证了其有效性和实用性。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-09-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 一点人工一点智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档