在机器人技术领域,学习变得非常重要。对于非专家来说,很难理解现代机器人系统能做什么和不能做什么,现在的大多数机器人都是专门设计来执行一项/几项任务的。从最简单的家用吸尘器机器人到最先进的工业系统。
我们如何从专用机器人过渡到通用机器人呢?
答案当然是机器人学习,解决方案的种类很多,这是一个无法用一种独特的方法解决的问题。构建更复杂、更强大的机器人系统几乎肯定需要多种方法的结合,大多数方法的核心都需要一个大规模的共享数据集。
谷歌的DeepMind机器人团队最近宣布了与33个研究机构合作的项目,创建一个名为Open X-Embodiment的大型共享数据库
谷歌的DeepMind机器人团队最近宣布了与33个研究机构合作的项目,旨在创建一个名为Open X-Embodiment的大型共享数据库。谷歌将这个数据比作ImageNet(包含超过1400万张图像的数据库,其历史可以追溯到2009年)
Open X-Embodiment 数据集结合了跨实施例、数据集和技能的数据
RT-X:通用机器人模型
RT-X是一种通用机器人模型,基于两个机器人变压器模型构建的。
使用了RT-1来训练RT-1-X,而RT-1是我们用于控制现实世界机器人的模型。
使用RT-2来训练RT-2-X,RT-2是一个视觉语言动作模型,可以从网络和机器人数据中学习。
这意味着在相同的模型架构下,RT-1-X和RT-2-X能够表现得更好,这要归功于接触到更多不同情境数据的训练。在特定领域的训练模型上有所改进,表现出更好的泛化能力和新功能。
为了评估RT-1-X在合作学术大学中的表现,将其与专门为特定任务(比如开门)开发的模型在相应数据集上进行了比较。结果显示,使用Open X-Embodiment数据集训练的RT-1-X的平均性能比原始模型提高了50%。
RT-1-X的平均成功率比相应的原始方法高出50%。
在研究跨机器人的知识转移方面,使用辅助机器人来执行一些任务,这些任务涉及到RT-2数据集中没有的对象和技能,但在其他机器人的数据集中存在。具体来说,在新兴技能方面,RT-2-X的成功率是之前最佳模型RT-2的三倍。
通过将不同机器人的数据进行联合训练,可以使RT-2-X具备原始数据集中没有的额外技能,从而能够执行新颖的任务。
RT-2-X展示了对对象之间的空间关系有更好的理解能力。例如,如果我们要求机器人"将苹果移动到布附近"而不是"将苹果移动到布上",那么机器人的行动轨迹会完全不同。这表明RT-2-X具备了更好的空间理解能力。
RT-2-X表明,将其他机器人的数据与训练相结合,可以扩展已经拥有大量数据的机器人可以执行的任务范围,但前提是要使用高容量的模型架构。RT-2-X(55B)是迄今为止在学术实验室中执行看不见任务的最大模型之一。
在推进机器人研究方面,需要负责任地合作,共享资源,这对于以开放和负责任的方式推进机器人研究非常重要。通过开源数据和提供安全但有限的模型来降低障碍并加速研究。机器人技术的未来取决于机器人之间的相互学习,以及研究人员之间的相互学习。
跨机器人之间的知识转移是可能的,不论是来自Google DeepMind的机器人还是来自世界各地不同大学的机器人,都能显著提高性能。未来的研究可以进一步探索如何结合这些进展与机器人自我改进的特性,以使模型能够根据自身经验不断改进。另一个未来的方向可能是深入研究不同数据集混合如何影响跨机器人之间的知识转移以及改进的泛化能力如何实现。