新方法使用基于语言的输入而不是昂贵的视觉数据来帮助机器人导航

菲梦 2024-02-05 阅读:111 评论:0
作者:亚当·泽威 , 麻省理工学院 有一天,您可能希望您的家庭机器人将一堆脏衣服搬到楼下,并将它们存放在地下室最左角的洗衣机中。机器人需要将您的指令与其视觉观察相结合,以确定完成此任务应采取的步骤。 对于人工智能代理来说,这说起...

作者:亚当·泽威 , 麻省理工学院

有一天,您可能希望您的家庭机器人将一堆脏衣服搬到楼下,并将它们存放在地下室最左角的洗衣机中。机器人需要将您的指令与其视觉观察相结合,以确定完成此任务应采取的步骤。

对于人工智能代理来说,这说起来容易做起来难。当前的方法通常利用多个手工制作的机器学习模型来处理任务的不同部分,这需要大量的人力和专业知识来构建。这些方法使用视觉表示直接做出导航决策,需要大量的视觉数据进行训练,而这些数据通常很难获得。

为了克服这些挑战,来自 MIT 和 MIT-IBM Watson AI 实验室的研究人员设计了一种导航方法,将视觉表示转换为语言片段,然后将其输入到一个大型语言模型中,以实现多步骤导航任务的所有部分。

他们的方法不是将机器人周围环境图像的视觉特征编码为视觉表示(这是计算密集型的),而是创建描述机器人观点的文本标题。大型语言模型使用字幕来预测机器人应采取的动作来完成用户基于语言的指令。

因为他们的方法利用纯粹基于语言的表示,所以他们可以使用大型语言模型来有效地生成大量的合成训练数据。

虽然这种方法的性能并不优于使用视觉特征的技术,但它在缺乏足够的视觉数据进行训练的情况下表现良好。研究人员发现,将基于语言的输入与视觉信号相结合可以带来更好的导航性能。

“通过纯粹使用语言作为感知表示,我们的方法更加简单。由于所有输入都可以编码为语言,因此我们可以生成人类可以理解的轨迹,”电气工程和计算机科学 (EECS) 教授 Bowen Pan 说道研究生和关于这种方法的论文的主要作者,该论文发表在 arXiv 预印本服务器。

用语言解决视力问题

潘说,由于大型语言模型是现有的最强大的机器学习模型,研究人员试图将它们纳入称为视觉和语言导航的复杂任务中。

但此类模型采用基于文本的输入,无法处理来自机器人相机的视觉数据。因此,团队需要找到一种使用语言的方法。

他们的技术利用简单的字幕模型来获取机器人视觉观察的文本描述。这些字幕与基于语言的指令相结合,并输入到一个大型语言模型中,该模型决定机器人下一步应该采取的导航步骤。

大语言模型输出机器人在完成该步骤后应该看到的场景的标题。这用于更新轨迹历史记录,以便机器人可以跟踪其去过的位置。

该模型重复这些过程以生成一条轨迹,引导机器人一次一步地到达目标。

为了简化这个过程,研究人员设计了模板,以便观察信息以标准形式呈现给模型——作为机器人可以根据周围环境做出的一系列选择。

例如,标题可能会说“你的左边 30 度是一扇门,旁边有一盆植物,你的后面是一间小办公室,里面有一张桌子和一台电脑”等等。模型会选择机器人是否应该朝门或办公室。

潘说:“最大的挑战之一是弄清楚如何以适当的方式将此类信息编码为语言,以使代理了解任务是什么以及他们应该如何响应。”

更多信息: Bowen Pan 等人,LangNav:语言作为导航的感知表示, arXiv (2023)。作者:10.48550/archiv.2310.07889

期刊信息: arXiv

由...提供 麻省理工学院

本文由麻省理工学院新闻 (web.mit.edu/newsoffice/) 转载,这是一个涵盖麻省理工学院研究、创新和教学新闻的热门网站。

分享:

扫一扫在手机阅读、分享本文

热门文章
  • 苹果面临在开发者大会上交付人工智能的压力

    苹果面临在开发者大会上交付人工智能的压力
    作者:格伦·查普曼 预计苹果公司将于下周证明,在科技界的竞争对手在人工智能领域大放异彩之际,它并没有被抛在后面。 分析师称,人工智能,甚至与 ChatGPT 制造商 OpenAI 的合作,都可能成为周一在硅谷举行的苹果年度 WWDC 开发者大会的主题。 这次会议是为苹果生态系统创建应用程序和软件的开发人员举办的年度盛会,首席执行官蒂姆库克将努力说服他们,随着竞争对手微软和谷歌连续快速推出创新,该公司是人工智能的关键参与者。 尽管苹果多年来一直在其 iPho...
  • 法国国家铁路公司 (SNCF) 将在意大利提供高速客运线路

    法国国家铁路公司 (SNCF) 将在意大利提供高速客运线路
    通过安东尼·盖伊 法国国家铁路运营商 SNCF 周三表示,计划从 2026 年起在邻国意大利提供高速客运服务,在其本土与竞争对手 Trenitalia 竞争。 SNCF Voyageurs 城际 TGV(高速列车)服务主管 Alain Krakovitch 表示:“意大利是一个天然的高速列车市场,每年接待 5600 万名乘客。” “但这是一个尚未成熟的市场,仍有许多乘客需要引进。” SNCF 计划最终在都灵、米兰、罗马和那不勒斯之间提供每日 9 趟往返列车...
  • 3D打印的微型执行器可以移动小型软机器人,将它们锁定成新的形状

    3D打印的微型执行器可以移动小型软机器人,将它们锁定成新的形状
    通过马特·希普曼 , 北卡罗来纳州立大学 北卡罗来纳州立大学的研究人员展示了微型软液压执行器,可用于控制厚度不到一毫米的软机器人的变形和运动。研究人员还证明,这项技术适用于形状记忆材料,允许用户反复将软机器人锁定为所需的形状,并根据需要返回到原始形状。 “软机器人技术在许多应用中都有前景,但设计小规模驱动软机器人运动的执行器具有挑战性,”该工作论文的通讯作者、机械和航空航天副教授杰尹说。北卡罗来纳州立大学的工程学。 “我们的方法利用商用多材料 3D 打印技术和...
  • 新的168飞艇官方开奖历史记录查询图形处理技术比现有解决方案显示出显着的速度优势

    新的168飞艇官方开奖历史记录查询图形处理技术比现有解决方案显示出显着的速度优势
    经过168飞艇官方开奖历史记录查询高等教育出版社管理大规模图数据的行业对高效、快速的数据处理工具的需求导致了 GraphCP 的发展,这项技术可以显着提高处理速度。GraphCP不仅满足甚至大大超过了现有图处理系统的性能:这种性能改进使 GraphCP 成为依赖快速高效的图形数据处理的应用程序的领先解决方案。该研究的通讯作者 Yongli Cheng 表示:“GraphCP 在减少冗余数据访问和提高 I/O 带宽利用率方面的进步有助于我们领域的发展。”凭借其增强的速度,Gra...
  • 四足狗形机器人幸运飞行艇168官方开奖在人迹罕至的环境中“嗅探”有害气体

    四足狗形机器人幸运飞行艇168官方开奖在人迹罕至的环境中“嗅探”有害气体
    经过 美国化学会噩梦材料还是真正人类最好的朋友?幸运飞行艇168官方开奖一组研究人员为一个像狗一样的四足机器人配备了机械臂,可以从潜在危险的情况下采集空气样本,例如废弃的建筑物或火灾。在《2019》上发表研究的团队表示,机器狗会将样本带到一个人面前,由他筛选样本中是否存在潜在危险的化合物。 分析化学 。虽然该系统需要进一步完善,但演示显示了其在危险条件下的潜在价值。对于科学家和技术人员来说,在危险工作场所或火灾等事故后测试空气中的危险化学品是一项重要但非常危险的任务。为了...