革命性的机器人培训：效率和效果的下一个前沿

受到先进语言模型的启发，研究人员创建了一种新的训练方法，利用多样化的数据集帮助机器人获得各种技能。

在深受喜爱的卡通片《杰森一家》中，机器人女佣罗西轻松地从吸尘到准备晚餐和倒垃圾。然而，实际上，创造出一种多功能机器人仍然是一个重大障碍。

工程师通常收集特定机器人和任务所需的数据，然后在受控环境中进行训练。这个过程既昂贵又耗时，机器人往往难以适应那些它们以前未接触过的新任务或环境。

为改善通用机器人的训练，麻省理工学院的研究人员开发了一种灵活的方法，该方法从多个来源聚集大量多样化的数据，使任何机器人能够学习广泛的任务。

该技术将来自不同领域的数据（如仿真和真实机器人）以及各种模态（包括视觉传感器和机器人手臂位置编码器）对齐，形成一种统一的“语言”，使生成性人工智能模型能够理解。

通过汇集如此大量的数据，这种方法使机器人能够在每次学习不同任务时无需从头开始。

这种方法的独特之处在于，它比传统方法更快且更经济，因为它需要显著较少的特定任务数据。与从零开始训练相比，它在仿真和现实世界测试中的表现提高了超过20%。

电气工程与计算机科学（EECS）研究生及相关论文的主要作者王立瑞解释道：“在机器人领域，通常会有人说可用的训练数据不足。然而，我认为一个主要挑战是数据来自各个领域、模态和机器人硬件。我们的研究展示了如何通过整合这些数据有效地训练机器人。”

王立瑞与EECS研究生赵家梁、Meta的研究科学家陈鑫雷和EECS副教授兼计算机科学与人工智能实验室（CSAIL）成员资深作者何恺明合作。他们的研究工作将在神经信息处理系统会议上展示。

受大型语言模型的启发

机器人“策略”解释传感器数据，如相机图像或跟踪机器人手臂速度和位置的测量数据，指导机器人如何移动。

这些策略通常通过模仿学习获得，其中人类展示动作或远程操作机器人以生成输入到人工智能模型的数据。由于这种方法使用的专业数据量有限，机器人在面对新任务或改变环境时常常失败。

为了创造一个更有效的解决方案，王立瑞和他的团队从大型语言模型（如GPT-4）获得了灵感。

这些模型在大量多样化的语言数据上进行预训练，随后使用少量特定任务数据进行微调，使其能够高效适应各种任务。

他指出：“在语言领域，数据仅由句子组成。在机器人领域，由于数据类型的多样性，需要不同的架构来适应类似的预训练方法。”

机器人的数据形式多种多样，从相机图像到口头指令和深度图。此外，每个机器人都有其独特的机械结构，手臂、抓手和传感器的配置各不相同，更不用说收集数据的环境的多样性了。

麻省理工大学的研究人员引入了一种新颖的架构，称为异构预训练变换器（HPT），将来自不同模态和领域的数据结合在一起。

在他们的架构核心，他们采用了一种称为变换器的机器学习模型，处理视觉输入和本体感觉输入。这种变换器与大型语言模型的基础类型相同。

研究人员将来自视觉和本体感觉的数据转换为统一的输入类型，称为令牌，这些数据可以由变换器处理。每个输入由统一数量的令牌表示。

接下来，变换器将所有输入整合到一个共享空间中，随着更多数据的学习，形成一个庞大的、预训练的模型。变换器越大，性能表现越好。

用户只需提供关于其机器人设计、配置和期望任务的少量信息，HPT便可以有效地应用在预训练中获得的知识来学习新任务。

促进精确的运动

创建HPT的一个主要挑战是组装进行预训练所需的庞大数据集，该数据集由52个数据集组成，涵盖超过200,000个机器人运动，涵盖四个类别，包括人类演示和仿真的视频。

研究人员还必须设计出一种高效的方法，将来自各种传感器的原始本体感觉信号转换为变换器能够处理的数据。

王立瑞表示：“本体感觉在启用复杂运动中起着关键作用。由于我们的架构中令牌数量是一致的，因此我们对本体感觉和视觉赋予了相等的权重。”

测试表明，HPT使机器人在模拟和真实任务中的表现提高了超过20%，相比于每次训练时从零开始。值得注意的是，即使当任务与预训练数据有显著不同时，HPT仍然表现出改善的性能。

未来，研究人员计划探索进一步多样化数据如何增强HPT的性能。他们还希望完善HPT，使其能够处理未标记的数据，类似于GPT-4和其他大型语言模型的操作方法。

他总结道：“我们的最终目标是开发一种通用机器人大脑，可以被下载并用于任何机器人，而无需训练。尽管我们仍处于早期阶段，但我们决心向前推进，并希望规模化将导致机器人策略的突破，类似于大型语言模型的发展。”