新算法仅通过观看视频即可发现语言

菲梦 2024-05-14 阅读:362 评论:0
通过雷切尔·戈登 , 麻省理工学院 马克·汉密尔顿 (Mark Hamilton),麻省理工学院博士电气工程和计算机科学专业的学生,​​麻省理工学院计算机科学和人工智能实验室 (CSAIL) 的附属机构,希望使用机器来了解动物如何交...

通过雷切尔·戈登 , 麻省理工学院

马克·汉密尔顿 (Mark Hamilton),麻省理工学院博士电气工程和计算机科学专业的学生,​​麻省理工学院计算机科学和人工智能实验室 (CSAIL) 的附属机构,希望使用机器来了解动物如何交流。为此,他首先着手创建一个可以“从头开始”学习人类语言的系统。

“有趣的是,关键时刻的灵感来自于电影《企鹅进行曲》。有一个场景,一只企鹅在穿过冰面时跌倒,在站起来时发出轻微的呻吟声,当你看到它时,几乎很明显,这种呻吟声代表了一个四个字母的单词,这就是我们想到的时刻。 ,也许我们需要利用音频和视频来学习语言。”汉密尔顿说。 “有没有一种方法可以让算法整天看电视,并从中找出我们在谈论的内容?”

“我们的模型 DenseAV 旨在通过根据所听到的内容预测所看到的内容来学习语言,反之亦然。例如,如果您听到有人说‘以 350 度烘烤蛋糕’的声音,那么您可能会看到一个为了在这个跨越数百万个视频的音频视频匹配游戏中取得成功,该模型必须了解人们在谈论什么,”汉密尔顿说。

一篇描述这项工作的论文出现在 arXiv 预印本服务器。

在汉密尔顿和他的同事们在这个匹配游戏上训练 DenseAV 后,他们就研究了模型在听到声音时会寻找哪些像素。例如,当有人说“狗”时,算法立即开始在视频流中寻找狗。通过查看算法选择了哪些像素,我们可以发现算法认为某个单词的含义。

有趣的是,当 DenseAV 听狗叫时,会发生类似的搜索过程:它在视频流中搜索狗。

“这激起了我们的兴趣。我们想看看算法是否知道‘狗’这个词和狗的叫声之间的区别,”汉密尔顿说。该团队通过为 DenseAV 提供“双面大脑”来探索这一问题。有趣的是,他们发现 DenseAV 大脑的一侧自然地专注于语言,例如“狗”这个词,而另一侧则专注于诸如吠叫之类的声音。这表明 DenseAV 不仅学习了单词的含义和声音的位置,还学会了区分这些类型的跨模式连接,所有这些都不需要人工干预或任何书面语言知识。

应用程序的一个分支是从每天发布到互联网上的大量视频中学习。

“我们希望系统能够从大量视频内容中学习,例如教学视频,”汉密尔顿说。 “另一个令人兴奋的应用是理解新语言,例如海豚或鲸鱼的交流,它们没有书面的交流形式。我们希望 DenseAV 能够帮助我们理解这些从一开始就回避了人类翻译工作的语言。最后,我们希望这种方法可以用于发现其他信号对之间的模式,例如地球发出的地震声音及其地质情况。”

团队面临着一个艰巨的挑战:在没有任何文本输入的情况下学习语言。他们的目标是从空白中重新发现语言的含义,避免使用预先训练的语言模型。这种方法的灵感来自于儿童如何通过观察和聆听环境来理解语言。

更多信息: 马克·汉密尔顿等人,将“叽叽喳喳”与“聊天”分开:声音和语言的自我监督视觉基础, arXiv (2024). AR西V.org/ABS/2406.05629

期刊信息: arXiv

由...提供 麻省理工学院

本文由麻省理工学院新闻 (web.mit.edu/newsoffice/) 转载,这是一个涵盖麻省理工学院研究、创新和教学新闻的热门网站。

分享:

扫一扫在手机阅读、分享本文

热门文章
  • 苹果面临在开发者大会上交付人工智能的压力

    苹果面临在开发者大会上交付人工智能的压力
    作者:格伦·查普曼 预计苹果公司将于下周证明,在科技界的竞争对手在人工智能领域大放异彩之际,它并没有被抛在后面。 分析师称,人工智能,甚至与 ChatGPT 制造商 OpenAI 的合作,都可能成为周一在硅谷举行的苹果年度 WWDC 开发者大会的主题。 这次会议是为苹果生态系统创建应用程序和软件的开发人员举办的年度盛会,首席执行官蒂姆库克将努力说服他们,随着竞争对手微软和谷歌连续快速推出创新,该公司是人工智能的关键参与者。 尽管苹果多年来一直在其 iPho...
  • 法国国家铁路公司 (SNCF) 将在意大利提供高速客运线路

    法国国家铁路公司 (SNCF) 将在意大利提供高速客运线路
    通过安东尼·盖伊 法国国家铁路运营商 SNCF 周三表示,计划从 2026 年起在邻国意大利提供高速客运服务,在其本土与竞争对手 Trenitalia 竞争。 SNCF Voyageurs 城际 TGV(高速列车)服务主管 Alain Krakovitch 表示:“意大利是一个天然的高速列车市场,每年接待 5600 万名乘客。” “但这是一个尚未成熟的市场,仍有许多乘客需要引进。” SNCF 计划最终在都灵、米兰、罗马和那不勒斯之间提供每日 9 趟往返列车...
  • 3D打印的微型执行器可以移动小型软机器人,将它们锁定成新的形状

    3D打印的微型执行器可以移动小型软机器人,将它们锁定成新的形状
    通过马特·希普曼 , 北卡罗来纳州立大学 北卡罗来纳州立大学的研究人员展示了微型软液压执行器,可用于控制厚度不到一毫米的软机器人的变形和运动。研究人员还证明,这项技术适用于形状记忆材料,允许用户反复将软机器人锁定为所需的形状,并根据需要返回到原始形状。 “软机器人技术在许多应用中都有前景,但设计小规模驱动软机器人运动的执行器具有挑战性,”该工作论文的通讯作者、机械和航空航天副教授杰尹说。北卡罗来纳州立大学的工程学。 “我们的方法利用商用多材料 3D 打印技术和...
  • 新的168飞艇官方开奖历史记录查询图形处理技术比现有解决方案显示出显着的速度优势

    新的168飞艇官方开奖历史记录查询图形处理技术比现有解决方案显示出显着的速度优势
    经过168飞艇官方开奖历史记录查询高等教育出版社管理大规模图数据的行业对高效、快速的数据处理工具的需求导致了 GraphCP 的发展,这项技术可以显着提高处理速度。GraphCP不仅满足甚至大大超过了现有图处理系统的性能:这种性能改进使 GraphCP 成为依赖快速高效的图形数据处理的应用程序的领先解决方案。该研究的通讯作者 Yongli Cheng 表示:“GraphCP 在减少冗余数据访问和提高 I/O 带宽利用率方面的进步有助于我们领域的发展。”凭借其增强的速度,Gra...
  • 苹果通过一系列即将推出的 iPhone 功能和 ChatGPT 协议进军人工智能领域,以实现智能化

    苹果通过一系列即将推出的 iPhone 功能和 ChatGPT 协议进军人工智能领域,以实现智能化
    作者:迈克尔·利特克 苹果已经加入了为大众带来生成人工智能的竞赛,周一重点介绍了一系列旨在增强 iPhone、iPad 和 Mac 的功能。 今年晚些时候,作为免费软件更新的一部分的人工智能技术被称为“苹果智能”,这一举措适合这家以营销实力着称的公司。 尽管苹果试图在最热门的技术领域打上自己的印记,但苹果在全球开发者大会上默认,它需要帮助才能赶上微软和谷歌等公司,这些公司已成为人工智能领域的早期领导者。苹果正在依靠旧金山初创公司 OpenAI 开发的 Chat...