使用插图训练无图像计算机视觉系统来识别真实照片

菲梦 2023-06-11 阅读:45 评论:0
通过亚历克斯·希普斯 您可能听说过一张图片胜过一千个单词,但是如果大型语言模型 (LLM) 以前从未见过图像,它能否获取图片呢? 事实证明,纯粹基于文本训练的语言模型对视觉世界有着扎实的理解。他们可以编写图像渲染代码来生成具有有...

通过亚历克斯·希普斯

您可能听说过一张图片胜过一千个单词,但是如果大型语言模型 (LLM) 以前从未见过图像,它能否获取图片呢?

事实证明,纯粹基于文本训练的语言模型对视觉世界有着扎实的理解。他们可以编写图像渲染代码来生成具有有趣对象和构图的复杂场景,即使这些知识没有得到正确使用,法学硕士也可以改进他们的图像。麻省理工学院计算机科学与人工智能实验室 (CSAIL) 的研究人员在提示语言模型针对不同图像自我纠正其代码时观察到了这一点,其中系统通过每次查询改进了简单的剪贴画绘图。

这些语言模型的视觉知识是通过互联网上如何描述形状和颜色等概念(无论是用语言还是代码)获得的。当给出“在丛林中画一只鹦鹉”这样的指示时,用户会催促法学硕士考虑之前在描述中读到的内容。

为了评估法学硕士拥有多少视觉知识,CSAIL 团队为法学硕士构建了“视觉检查”:使用他们的“视觉能力数据集”,他们测试了模型绘制、识别和自我纠正这些概念的能力。研究人员收集了这些插图的每个最终草稿,训练了一个计算机视觉系统来识别真实照片的内容。

他们的作品发表在 arXiv 预印本服务器。

该研究的共同主要作者、麻省理工学院电气工程和计算机科学 (EECS) CSAIL 博士后 Tamar Rott Shaham 表示:“我们基本上在不直接使用任何视觉数据的情况下训练视觉系统。” “我们的团队查询语言模型来编写图像渲染代码来为我们生成数据,然后训练视觉系统来评估自然图像。我们受到如何通过其他媒介(例如文本)表示视觉概念的问题的启发。视觉知识,法学硕士可以使用代码作为文本和视觉之间的共同点。”

为了构建这个数据集,研究人员首先查询模型以生成不同形状、对象和场景的代码。然后,他们编译该代码来渲染简单的数字插图,例如一排自行车,表明法学硕士足够了解空间关系,可以将两轮车绘制成水平行。另一个例子,模型结合了两个随机概念,生成了一个汽车形状的蛋糕。该语言模型还产生了一个发光的灯泡,表明它具有创造视觉效果的能力。

“我们的工作表明,当你查询法学硕士(没有多模式预训练)来创建图像时,它知道的东西比看起来要多得多,”联合主要作者、EECS 博士说。学生、CSAIL 成员 Pratyusha Sharma。 “假设你要求它画一把椅子。模型知道这件家具可能无法立即渲染的其他信息,因此用户可以查询模型以改进每次迭代产生的视觉效果。令人惊讶的是,该模型可以通过在很大程度上改进渲染代码来迭代地丰富绘图。”

研究人员收集了这些插图,然后将其用于训练计算机视觉系统,该系统可以识别真实照片中的物体(尽管以前从未见过)。凭借这种合成的文本生成数据作为唯一的参考点,该系统优于其他使用真实照片训练的程序生成的图像数据集。

CSAIL 团队认为,将法学硕士隐藏的视觉知识与扩散模型等其他人工智能工具的艺术能力相结合也可能是有益的。像 Midjourney 这样的系统有时缺乏持续调整图像中更精细细节的专业知识,这使得它们很难处理诸如减少拍摄的汽车数量或将一个物体放在另一个物体后面等请求。如果法学硕士事先勾画出扩散模型所需的更改,则最终的编辑可能会更令人满意。

更多信息: Pratyusha Sharma 等人,语言模型的视力检查, arXiv (2024)。作者:10.48550/archiv.2401.01862

期刊信息: arXiv

本文由麻省理工学院新闻 (web.mit.edu/newsoffice/) 转载,这是一个涵盖麻省理工学院研究、创新和教学新闻的热门网站。

分享:

扫一扫在手机阅读、分享本文

热门文章
  • 新的168飞艇官方开奖历史记录查询图形处理技术比现有解决方案显示出显着的速度优势

    新的168飞艇官方开奖历史记录查询图形处理技术比现有解决方案显示出显着的速度优势
    经过168飞艇官方开奖历史记录查询高等教育出版社管理大规模图数据的行业对高效、快速的数据处理工具的需求导致了 GraphCP 的发展,这项技术可以显着提高处理速度。GraphCP不仅满足甚至大大超过了现有图处理系统的性能:这种性能改进使 GraphCP 成为依赖快速高效的图形数据处理的应用程序的领先解决方案。该研究的通讯作者 Yongli Cheng 表示:“GraphCP 在减少冗余数据访问和提高 I/O 带宽利用率方面的进步有助于我们领域的发展。”凭借其增强的速度,Gra...
  • 四足狗形机器人幸运飞行艇168官方开奖在人迹罕至的环境中“嗅探”有害气体

    四足狗形机器人幸运飞行艇168官方开奖在人迹罕至的环境中“嗅探”有害气体
    经过 美国化学会噩梦材料还是真正人类最好的朋友?幸运飞行艇168官方开奖一组研究人员为一个像狗一样的四足机器人配备了机械臂,可以从潜在危险的情况下采集空气样本,例如废弃的建筑物或火灾。在《2019》上发表研究的团队表示,机器狗会将样本带到一个人面前,由他筛选样本中是否存在潜在危险的化合物。 分析化学 。虽然该系统需要进一步完善,但演示显示了其在危险条件下的潜在价值。对于科学家和技术人员来说,在危险工作场所或火灾等事故后测试空气中的危险化学品是一项重要但非常危险的任务。为了...
  • 法国国家铁路公司 (SNCF) 将在意大利提供高速客运线路

    法国国家铁路公司 (SNCF) 将在意大利提供高速客运线路
    通过安东尼·盖伊 法国国家铁路运营商 SNCF 周三表示,计划从 2026 年起在邻国意大利提供高速客运服务,在其本土与竞争对手 Trenitalia 竞争。 SNCF Voyageurs 城际 TGV(高速列车)服务主管 Alain Krakovitch 表示:“意大利是一个天然的高速列车市场,每年接待 5600 万名乘客。” “但这是一个尚未成熟的市场,仍有许多乘客需要引进。” SNCF 计划最终在都灵、米兰、罗马和那不勒斯之间提供每日 9 趟往返列车...
  • Meta 的人工智能可以翻译数十种资源匮乏的语言

    Meta 的人工智能可以翻译数十种资源匮乏的语言
    经过 自然出版集团 Meta 的人工智能模型背后的技术可以翻译 200 种不同的语言,发表在 自然 。该模型扩展了可以通过机器翻译翻译的语言数量。 神经机器翻译模型利用人工神经网络来翻译语言。这些模型通常需要大量可访问的在线数据来进行训练,而这些数据对于某些被称为“低资源语言”的语言来说可能不是公开的、廉价的或普遍可用的。根据模型翻译的语言数量来增加模型的语言输出可能会对模型翻译的质量产生负面影响。 Marta Costa-jussà 和 No Lang...
  • 3D打印的微型执行器可以移动小型软机器人,将它们锁定成新的形状

    3D打印的微型执行器可以移动小型软机器人,将它们锁定成新的形状
    通过马特·希普曼 , 北卡罗来纳州立大学 北卡罗来纳州立大学的研究人员展示了微型软液压执行器,可用于控制厚度不到一毫米的软机器人的变形和运动。研究人员还证明,这项技术适用于形状记忆材料,允许用户反复将软机器人锁定为所需的形状,并根据需要返回到原始形状。 “软机器人技术在许多应用中都有前景,但设计小规模驱动软机器人运动的执行器具有挑战性,”该工作论文的通讯作者、机械和航空航天副教授杰尹说。北卡罗来纳州立大学的工程学。 “我们的方法利用商用多材料 3D 打印技术和...