最大工业机器人抓取数据集ARMBench发布

原创

用户11764306

发布于 2025-12-25 15:29:35

1600

某中心发布最大规模工业“抓取和放置”机器人训练数据集

为提升仓库中负责分拣、抓取和打包产品的机器人性能，某中心公开发布了在工业产品分拣场景中捕获的最大规模图像数据集。此前最大的工业图像数据集仅包含约100个对象，而名为ARMBench的该数据集则包含了超过190,000个对象。因此，该数据集可用于训练“抓取和放置”机器人，使其能更好地适应新产品和新场景。

我们在一篇论文中描述了ARMBench，该论文将于今年春季晚些时候在国际机器人与自动化会议（ICRA）上展示。

收集ARMBench图像的场景涉及一个机械臂，它必须从装满物品的料箱中取出单个物品，并将其转移到传送带上的托盘中。在机器人系统背景下，物品的多样性、其摆放配置以及相互作用使得这项任务极具挑战性。

ARMBench抓取与放置场景

ARMBench包含三个独立任务的图像集：(1) 物体分割，即识别同一料箱中不同产品的边界；(2) 物体识别，即确定参考数据库中的哪张产品图像与图像中高亮显示的产品相匹配；(3) 缺陷检测，即判断机器人是否出现错误，例如一次抓取了多个物品或在转移过程中损坏了物品。

数据集中的图像分为三类：

抓取图像：机器人处理前，装满物品的料箱的俯视图。
转移图像：机器人将物品转移到托盘过程中，从多个视角捕获的图像。
放置图像：放置了选定物品的托盘的俯视图。

数据集细分与挑战

物体分割数据集包含超过50,000张图像，每张图像包含1到50个手动分割的物体，平均约10.5个。高度的物品堆叠混乱，加上物品的多样性（有些甚至是透明或反光的），使其成为一个具有挑战性的独特基准。
物体识别数据集包含超过235,000个标记的“抓取活动”；每个抓取活动包括一张抓取图像和三张转移图像。此外，还有超过190,000种产品的参考图像和文本描述；在物体识别任务中，模型必须学会将这些参考产品之一与抓取和转移图像中高亮显示的对象进行匹配。这项任务面临的挑战包括区分外观相似的产品、在不同视角间进行匹配，以及融合图像和文本等多模态信息进行预测。
缺陷检测数据集包括静态图像和视频。超过19,000张静态图像是在转移阶段捕获的，旨在训练缺陷检测模型，以判断机械臂是否意外损坏了物体或一次抓取了多个物体。另外4,000个视频记录了导致产品损坏的抓取和放置活动。某些类型的产品损坏最好通过视频诊断，因为它们可能发生在转移过程的任何时间点；相比之下，多抓取错误必然发生在转移开始阶段，并且在图像中可见。数据集中还包含了超过100,000次无任何缺陷的抓取放置活动的图像和视频。

仓库环境中对缺陷检测的严格精度要求，推动了对图像分类、异常检测以及视频中缺陷事件检测等多项关键计算机视觉技术的探索和改进。

在我们的论文中，我们描述了为ARMBench任务构建模型所采用的几种方法，并报告了我们的模型在这些任务上的性能，以便为其他研究人员提供性能基准。