工程师们创建了一个系统,帮助机器人快速映射周围环境并识别执行各种任务所需的物体。
想象一下,试图整理一个杂乱的厨房,从一个被各种酱料包覆盖的台面开始。如果你的目标是高效地清理台面,你可能会把所有的酱料包聚在一起。另一方面,如果你特别想先选出芥末酱包再丢掉其余的,你会更加仔细地挑选,专注于酱料的类型。如果你在寻找特定品牌的芥末,如格雷·普朋,你需要仔细搜索以找到那个特别的。
麻省理工学院的工程师们开发了一种技术,使机器人能够像这样做出直观的、以任务为导向的决策。
这个新系统被称为Clio,能够让机器人根据其需要完成的任务识别环境中的重要部分。通过Clio,当机器人收到以日常语言描述的任务列表时,它会识别理解周围环境所需的必要细节,并仅在其记忆中保留相关的场景组件。
在麻省理工学院校园内的一栋五层建筑到一个狭小的隔间等不同地点进行的实际实验中,研究团队利用Clio自动对场景进行不同细节级别的分割,通过自然语言提示如“移动杂志架”和“取急救包”等传达的任务集进行指导。
研究人员还在一台四足机器人上实时测试了Clio。当机器人在办公大楼内导航时,Clio能够识别并映射场景中仅与机器人任务相关的方面(例如,在忽略办公用品杂乱的情况下取回狗玩具),这使得机器人能够专注于感兴趣的物体。
Clio以希腊历史女神命名,能够识别并保留对于特定任务而言重要的组件。研究人员相信,Clio在各种场景中都能发挥重要作用,在这些场景中,机器人必须迅速评估并解释其环境与其分配任务的关系。
“我们的主要目标是将其应用于搜索和救援任务,但Clio也可以改善家用机器人和在与人类工人一起操作的工厂环境中的机器人,”麻省理工学院航空航天和宇航系副教授、信息与决策系统实验室(LIDS)首席研究员以及麻省理工学院SPARK实验室主任卢卡·卡尔罗内表示。“重点是帮助机器人理解环境并识别其执行任务所需记住的内容。”
团队在今天发表在《机器人与自动化通讯》期刊上的研究中展示了他们的发现。SPARK实验室的共同作者包括多米尼克·马吉奥、云·张、内森·休斯和卢卡斯·施密德,麻省理工学院林肯实验室的贡献者包括马修·Trang、丹·格里菲斯、卡琳·多赫提和埃里克·克里斯托法洛。
开放领域
计算机视觉和自然语言处理的显著进展使机器人能够识别其周围的物体。然而,直到最近,机器人主要在“封闭集”环境中运作,在这些环境中,它们被编程在受控环境中运行,识别一组有限的目标物体。
最近,研究人员采取了“开放”方法,允许机器人在更真实的环境中识别物体。通过开放集识别,研究人员利用深度学习技术开发神经网络,能够分析来自互联网的数十亿张图像及其相关文本(例如,一张描绘狗的Facebook帖子及其标题“认识我的新小狗!”)。
通过学习来自数百万图像-文本对,神经网络可以随后识别场景中特定术语特征的片段,如狗。机器人可以然后利用这个神经网络在全新的上下文中检测狗。
然而,如何以与特定任务相关的方式有效解析场景仍然是一个重大挑战。
“标准方法通常选择一个任意的、固定的细节级别来确定如何将场景片段合并为可能被视为单一‘对象’,”马吉奥解释道。“然而,‘对象’的定义直接与机器人的目标相关。如果这个细节级别是死板的,未能考虑当前的任务,机器人可能最终会创建一张对其任务不特别有用的地图。”
信息瓶颈
通过Clio,麻省理工学院团队旨在使机器人能够以根据任务灵活调整的细节级别来解释其环境。
例如,如果任务是将一堆书移动到书架,机器人应该认识到整堆书是该任务的重要物体。相反,如果目标是只移动那堆书中的绿色书籍,机器人应该将绿色书籍识别为一个独立的目标,并忽略场景中的其余部分,包括其他书籍。
团队的方法结合了尖端的计算机视觉和由神经网络组成的庞大语言模型,将数百万个开源图像与语义文本关联。它们还应用映射工具,将图像分解为许多较小的片段,这些片段可以被神经网络分析,以确定某些片段是否共享语义相似性。研究人员进一步利用了一种来自经典信息理论的策略被称为“信息瓶颈”,使他们能够以一种强调并保留与特定任务最相关的片段的方式浓缩多个图像片段。
“例如,如果场景中有一堆书,而我的任务仅仅是取回绿色书籍,我们通过这个瓶颈处理所有场景信息,最终得到一组表示绿色书籍的片段,”马吉奥解释道。“所有不相关的片段可以简单地组合在一起并被忽略,从而留下适合任务的适当细节级别的对象。”
研究人员已经在不同的现实环境中演示了Clio。
“我们决定在我杂乱的公寓中进行一个实验,没有事先进行清理,以查看Clio的表现,”马吉奥分享道。
团队生成了一系列自然语言任务,如“移动一堆衣服”,并将Clio应用于捕捉不整洁公寓的图像。在这些实例中,Clio能够快速对公寓场景进行分割,并使用信息瓶颈算法处理片段,以识别与衣物堆对应的片段。
他们还在波士顿动力公司的Spot机器人上测试了Clio。在分配了一组任务后,随着机器人探索并映射办公大楼内部,Clio实时在安装在Spot上的计算机上操作,识别与指定任务相关的映射场景的片段。这种方法生成一张仅突出目标物体的叠加地图,机器人利用该地图进行导航并实际完成这些任务。
“与Clio实现实时操作是团队的一个重要里程碑,”马吉奥指出。“早期的工作通常需要几个小时才能产生结果。”
展望未来,团队计划将Clio адаптирован以便处理更复杂的任务,并在逼真的场景表示方面进行进一步改进。
“目前,我们仍在分配相当具体的任务,比如‘找到一副扑克牌’,。”马吉奥解释道。“然而,对于搜索和救援操作,我们希望将其引导到更抽象的任务,例如‘找到幸存者’或者‘恢复电力’。因此,我们希望实现更人性化的理解,以应对更复杂的任务。”
这项研究得到了美国国家科学基金会、瑞士国家科学基金会、麻省理工学院林肯实验室、美国海军研究办公室和美国陆军研究实验室在分布式与协作智能系统与技术协作研究联盟上的部分支持。