研究人员开发了一种新的人工智能驱动的机器人框架——称为RHyME(Mismatched Execution下的混合模仿检索),它允许机器人通过观看单个操作视频来学习任务。
康奈尔大学的研究人员开发了一种新的人工智能驱动的机器人框架——称为RHyME(Mismatched Execution下的混合模仿检索),它允许机器人通过观看单个操作视频来学习任务。
机器人可能是很挑剔的学习者。历史上,它们需要精确的、逐步的指示才能完成基本任务,并倾向于在事情不按剧本进行时放弃,如在掉落工具或丢失螺丝后。然而,RHyME可能会通过显著减少培训它们所需的时间、精力和金钱来加速机器人系统的开发和部署,研究人员表示。
“与机器人合作时令人烦恼的一件事是收集机器人执行不同任务的如此多的数据,”计算机科学博士生Kushal Kedia说。“人类并不是以这种方式执行任务。我们会把其他人视为灵感。”
Kedia将在5月于亚特兰大的电气和电子工程师学会国际机器人与自动化会议上介绍论文《Mismatched Execution下的单次模仿》。
家庭机器人助手仍然遥不可及,因为它们缺乏在物理世界及其无数变数中导航的智慧。为了让机器人跟上节奏,像Kedia这样的研究人员正在用相当于操作视频的方式来训练它们——在实验室环境中人类演示各种任务。通过这种方法,即一种被称为“模仿学习”的机器学习分支,期望机器人能更快地学习任务序列,并能够适应现实世界环境。
“我们的工作就像将法语翻译成英语——我们正在将任何特定任务从人类翻译为机器人,”主作者、计算机科学助理教授Sanjiban Choudhury表示。
然而,这种翻译任务仍面临更广泛的挑战:人类的移动太流畅,机器人无法追踪和模仿,而用视频训练机器人需要大量视频。此外,视频演示——例如,捡起餐巾纸或叠放餐盘——必须缓慢且完美地执行,因为视频与机器人之间的任何动作不匹配历来意味着机器学习的失败,研究人员表示。
“如果人类的动作与机器人移动的方式有任何不同,这种方法就会立即崩溃,”Choudhury说。“我们的想法是,‘我们能否找到一种原则性的方法来处理人类和机器人执行任务之间的不匹配?’”
RHyME是该团队的答案——一种可扩展的方法,使机器人变得不那么挑剔且更具适应性。它增强了机器人系统,利用自身的记忆,在只观看一次的情况下,通过视频回忆来连接点。例如,一个装有RHyME的机器人观看一个人从桌子上取一只杯子并将其放入附近水槽的视频后,会从其视频库中搜寻灵感,模仿类似的动作——如握住杯子和放下 utensil。
研究人员表示,RHyME为机器人学习多步骤序列铺平了道路,同时显著降低了所需的机器人训练数据量。RHyME只需要30分钟的机器人数据;在实验室环境中,使用该系统训练的机器人实现了任务成功率超过50%的增加,相比于之前的方法,研究人员表示。