作者:亚当·泽威 , 麻省理工学院
有一天,您可能希望您的家庭机器人将一堆脏衣服搬到楼下,并将它们存放在地下室最左角的洗衣机中。机器人需要将您的指令与其视觉观察相结合,以确定完成此任务应采取的步骤。
对于人工智能代理来说,这说起来容易做起来难。当前的方法通常利用多个手工制作的机器学习模型来处理任务的不同部分,这需要大量的人力和专业知识来构建。这些方法使用视觉表示直接做出导航决策,需要大量的视觉数据进行训练,而这些数据通常很难获得。
为了克服这些挑战,来自 MIT 和 MIT-IBM Watson AI 实验室的研究人员设计了一种导航方法,将视觉表示转换为语言片段,然后将其输入到一个大型语言模型中,以实现多步骤导航任务的所有部分。
他们的方法不是将机器人周围环境图像的视觉特征编码为视觉表示(这是计算密集型的),而是创建描述机器人观点的文本标题。大型语言模型使用字幕来预测机器人应采取的动作来完成用户基于语言的指令。
因为他们的方法利用纯粹基于语言的表示,所以他们可以使用大型语言模型来有效地生成大量的合成训练数据。
虽然这种方法的性能并不优于使用视觉特征的技术,但它在缺乏足够的视觉数据进行训练的情况下表现良好。研究人员发现,将基于语言的输入与视觉信号相结合可以带来更好的导航性能。
“通过纯粹使用语言作为感知表示,我们的方法更加简单。由于所有输入都可以编码为语言,因此我们可以生成人类可以理解的轨迹,”电气工程和计算机科学 (EECS) 教授 Bowen Pan 说道研究生和关于这种方法的论文的主要作者,该论文发表在 arXiv 预印本服务器。
用语言解决视力问题
潘说,由于大型语言模型是现有的最强大的机器学习模型,研究人员试图将它们纳入称为视觉和语言导航的复杂任务中。
但此类模型采用基于文本的输入,无法处理来自机器人相机的视觉数据。因此,团队需要找到一种使用语言的方法。
他们的技术利用简单的字幕模型来获取机器人视觉观察的文本描述。这些字幕与基于语言的指令相结合,并输入到一个大型语言模型中,该模型决定机器人下一步应该采取的导航步骤。
大语言模型输出机器人在完成该步骤后应该看到的场景的标题。这用于更新轨迹历史记录,以便机器人可以跟踪其去过的位置。
该模型重复这些过程以生成一条轨迹,引导机器人一次一步地到达目标。
为了简化这个过程,研究人员设计了模板,以便观察信息以标准形式呈现给模型——作为机器人可以根据周围环境做出的一系列选择。
例如,标题可能会说“你的左边 30 度是一扇门,旁边有一盆植物,你的后面是一间小办公室,里面有一张桌子和一台电脑”等等。模型会选择机器人是否应该朝门或办公室。
潘说:“最大的挑战之一是弄清楚如何以适当的方式将此类信息编码为语言,以使代理了解任务是什么以及他们应该如何响应。”
更多信息: Bowen Pan 等人,LangNav:语言作为导航的感知表示, arXiv (2023)。作者:10.48550/archiv.2310.07889
期刊信息: arXiv
由...提供 麻省理工学院
本文由麻省理工学院新闻 (web.mit.edu/newsoffice/) 转载,这是一个涵盖麻省理工学院研究、创新和教学新闻的热门网站。