随着电商的蓬勃发展,自动化仓库机器人市场也迎来了爆发,也进一步提高了机器人在拣选速度方面的要求。
一个仓库机器人从货架上拿起杯子,并把它们放进箱子里进行运输。一切都在顺利进行,直到机器人遇到一个变化,它现在必须抓起更高更窄的杯子, 而这些杯子是倒着存放的。
重新编程该机器人需要手动标记数千张图像,以展示它如何抓住这些新杯子,然后重新训练系统。
但麻省理工学院研究人员开发的一项新技术只需要少数人类演示即可重新编程机器人。这种机器学习方法使机器人能够拾取和放置从未遇到过的随机姿势的从未见过的物体。在 10 到 15 分钟内,机器人将准备好执行新的拾取和放置任务。
该技术使用专门设计用于重建 3D 对象形状的神经网络。只需几次演示,该系统就可以使用神经网络学到的关于 3D 几何的知识来抓取与演示中的对象相似的新对象。
在模拟中并使用真实的机械臂,研究人员表明,他们的系统可以有效地操纵以随机姿势排列的从未见过的杯子、碗和瓶子,仅使用 10 次演示来教机器人。
“我们的主要贡献是能够更有效地为需要在可能存在很多可变性的非结构化环境中运行的机器人提供新技能。通过构造进行泛化的概念是一种令人着迷的能力,因为这个问题通常要困难得多,”电气工程和计算机科学 (EECS) 研究生、该论文的共同主要作者 Anthony Simeonov 说。
Simeonov 与共同主要作者、EECS 研究生 Yilun Du 共同撰写了这篇论文;Google Brain 的研究科学家 Andrea Tagliasacchi;Joshua B. Tenenbaum,Paul E. Newton 脑与认知科学系认知科学与计算职业发展教授,计算机科学与人工智能实验室 (CSAIL) 成员;Alberto Rodriguez,机械工程系 1957 届副教授;CSAIL 教授 Pulkit Agrawal 和 EECS 新任助理教授 Vincent Sitzmann 和资深作者。该研究将在机器人与自动化国际会议上发表。
机器人可能会被训练去捡起一个特定的物品,但如果那个物体侧躺着(可能是摔倒了),机器人会认为这是一个全新的场景。这是机器学习系统很难泛化到新的面向对象的原因之一。
为了克服这一挑战,研究人员创建了一种新型神经网络模型,即神经描述符字段 (NDF),它可以学习一类物品的 3D 几何形状。该模型使用 3D 点云计算特定项目的几何表示,3D 点云是一组数据点或三维坐标。数据点可以从提供物体和视点之间距离信息的深度相机获得。虽然网络在合成 3D 形状的大型数据集上进行了模拟训练,但它可以直接应用于现实世界中的对象。
该团队设计了具有称为等方差的属性的 NDF。有了这个属性,如果模型显示一个直立杯子的图像,然后在其侧面显示同一个杯子的图像,它就知道第二个杯子是同一个对象,只是旋转了。
“这种等效性使我们能够更有效地处理观察到的物体处于任意方向的情况,”Simeonov 说。
随着 NDF 学习重建相似对象的形状,它还学习关联这些对象的相关部分。例如,它知道杯子的把手是相似的,即使有些杯子比其他杯子更高或更宽,或者把手更小或更长。
“如果你想用另一种方法做到这一点,你必须手工标记所有部件。相反,我们的方法会自动从形状重建中发现这些部分,”杜说。
研究人员使用这个训练有素的 NDF 模型来教机器人一项新技能,只需几个物理示例。他们将机器人的手移动到他们希望它抓住的物体的一部分上,比如碗的边缘或杯子的把手,并记录指尖的位置。
Du 解释说,由于 NDF 已经了解了很多关于 3D 几何和如何重建形状的知识,它可以推断出新形状的结构,从而使系统能够将演示转移到任意姿势的新对象上。
他们在模拟中以及使用杯子、碗和瓶子作为对象的真实机械臂上测试了他们的模型。他们的方法在新方向的新对象的拾取和放置任务上的成功率为 85%,而最佳基线只能达到 45% 的成功率。成功意味着抓住一个新物体并将其放置在目标位置,就像将杯子挂在架子上一样。
许多基线使用 2D 图像信息而不是 3D 几何,这使得这些方法更难以整合等方差。这是 NDF 技术表现如此出色的原因之一。
虽然研究人员对其性能感到满意,但他们的方法仅适用于其训练的特定对象类别。被教导拿起杯子的机器人将无法拿起盒子或耳机,因为这些物体的几何特征与网络所训练的差异太大。
“在未来,将其扩展到多个类别或完全放弃类别的概念将是理想的,”Simeonov 说。
他们还计划使系统适应非刚性物体,从长远来看,使系统能够在目标区域发生变化时执行拾取和放置任务。
据悉,这项研究得到了美国国防高级研究计划局、新加坡国防科学技术局和国家科学基金会的支持。
参考链接:An easier way to teach robots new skills;Demi Xia编译