麻省理工学院的研究人员开发了一个框架,允许用户通过简单的互动在部署过程中纠正机器人的行为,比如通过指向一个物品、描绘一个轨迹或轻推机器人的手臂。
想象一下,一个机器人正在帮助你洗碗。你让它从水槽里拿一个泡沫碗,但它的抓手稍稍偏离了目标。
利用麻省理工学院和英伟达研究人员开发的新框架,你可以通过简单的互动来纠正机器人的行为。该方法允许你指向碗或在屏幕上描绘一个轨迹,或者只是轻轻推一下机器人的手臂朝正确的方向。
与其他纠正机器人行为的方法不同,这种技术不需要用户收集新数据和重新训练支撑机器人大脑的机器学习模型。它使机器人能够利用直观的实时人类反馈选择可行的动作序列,尽可能接近满足用户意图。
当研究人员测试他们的框架时,其成功率比不利用人工干预的替代方法高出21%。
从长远来看,这个框架可以让用户更容易地指导经过工厂训练的机器人执行各种家务任务,即使机器人从未见过他们的家或里面的物品。
“我们不能指望普通人进行数据收集和微调神经网络模型。消费者会期望机器人能够立刻正常工作,如果不行,他们希望有一种直观的机制来定制它。这就是我们在这项工作中解决的挑战,”电气工程与计算机科学(EECS)研究生和该方法论文的主要作者费利克斯·燕伟·王说道。
他的共同作者包括24届的王立锐博士和杜怡伦博士;资深作者朱莉·沙哈,是麻省理工学院航空航天与宇航科学教授,以及计算机科学与人工智能实验室(CSAIL)互动机器人组的主任;还有英伟达的巴拉库马尔·桑达拉林甘、杨旭宁、赵宇伟、克劳迪亚·佩雷斯-达尔皮诺博士(19届)以及迪特·福克斯。研究将在国际机器人与自动化会议上展示。
缓解错位
最近,研究人员开始使用预训练的生成性人工智能模型学习一种“策略”,即机器人遵循的规则集合来完成动作。生成模型可以解决多项复杂任务。
在训练期间,模型只看到可行的机器人运动,因此它学习生成有效的轨迹供机器人跟随。
尽管这些轨迹是有效的,但并不意味着它们总是与用户在现实世界中的意图一致。机器人可能已经训练成从架子上拿取盒子而不将其碰倒,但如果架子的方向与它在训练中看到的不同,它可能无法到达某个人书架上的盒子。
为克服这些失败,工程师通常需要收集展示新任务的数据并重新训练生成模型,这是一项昂贵且耗时的过程,需要机器学习的专业知识。
相反,麻省理工学院的研究人员希望在部署期间允许用户在机器人出错时引导机器人的行为。
但是,如果一个人和机器人互动以纠正其行为,这可能无意中导致生成模型选择一个无效的动作。它可能能够到达用户想要的盒子,但在此过程中却将书籍从架子上推下来了。
“我们想允许用户与机器人互动,而不引入这些类型的错误,从而使我们在部署过程中获得的行为与用户意图更加一致,同时仍然有效且可行,”王说。
他们的框架通过提供三种直观的方法来纠正机器人的行为来实现这一点,每种方法都有其特定的优点。
首先,用户可以在显示其摄像机视图的界面中指向他们希望机器人操作的物体。其次,他们可以在该界面中描绘轨迹,以指定他们希望机器人如何到达物体。第三,他们可以实际移动机器人的手臂朝他们希望其遵循的方向。
“当你将环境的二维图像映射到三维空间的动作时,一些信息会丢失。物理上轻推机器人是指定用户意图的最直接方式,而不丢失任何信息,”王说。
成功的采样
为了确保这些互动不会导致机器人选择无效的动作,例如与其他物体碰撞,研究人员使用特定的采样程序。这种技术让模型从一组有效动作中选择与用户目标最接近的动作。
“与其单纯地强加用户的意愿,我们给机器人一个用户的意图,但让采样程序在自己的学习行为集之间摆动,”王解释道。
这种采样方法使研究人员的框架在与真实机器人手臂在玩具厨房中的仿真和实验中优于其他比较方法。
尽管他们的方法可能不会立即完成任务,但它为用户提供了能够立即纠正机器人的优势,如果他们看到机器人做错了什么,而不是等到它完成后再给出新指令。
此外,在用户轻推机器人几次直到它拿起正确的碗后,它可以记录该纠正行为并通过未来的训练将其纳入其行为中。然后,第二天,机器人可以在不需要轻推的情况下拿起正确的碗。
“但持续改进的关键是要有一种方法让用户与机器人互动,这就是我们在这里展示的,”王说道。
未来,研究人员希望在保持或提高其性能的同时,提升采样程序的速度。他们还想在新环境中实验机器人策略生成。