
经过 萨里大学
萨里大学和斯坦福大学的一个团队开发了一种新方法,可以教授人工智能(AI)理解人类线条图(甚至是非艺术家的线条图)。
新模型在识别场景草图方面接近人类的表现水平。
萨里视觉、语音和信号处理中心 (CVSSP) 和萨里以人为本人工智能研究所 (PAI) 的讲师 Yulia Gryaditskaya 博士表示:“草图是一种强大的视觉交流语言。它有时甚至更具表现力和表达能力。”比口语灵活。
“开发用于理解草图的工具是迈向更强大的人机交互和更高效的设计工作流程的一步。例子包括能够通过绘制某些东西来搜索或创建图像。”
各个年龄段和背景的人们都使用绘画来探索新想法和交流。然而,人工智能系统在历史上一直难以理解草图。
必须教会人工智能如何理解图像。通常,这涉及收集图像中每个像素的标签的劳动密集型过程。然后人工智能从这些标签中学习。
相反,该团队结合使用草图和书面描述来教授人工智能。它学会了对像素进行分组,将它们与描述中的类别之一进行匹配。
与之前的方法相比,最终的人工智能对这些图画表现出了更丰富、更接近人类的理解。它能够正确识别和标记风筝、树木、长颈鹿和其他物体,准确率高达 85%。这优于依赖标记像素的其他模型。
除了识别复杂场景中的对象之外,它还可以识别哪些笔画旨在描绘每个对象。这种新方法适用于非艺术家绘制的非正式草图,以及未经过明确训练的物体图画。
斯坦福大学心理学助理教授朱迪思·范教授表示:“绘画和写作是最典型的人类活动之一,长期以来一直有助于捕捉人们的观察和想法。
“这项工作代表了人工智能系统取得的令人兴奋的进展,它能够理解人们试图传达的想法的本质,无论他们使用的是图片还是文本。”
该研究是萨里以人为本的人工智能研究所的一部分,特别是其 SketchX 项目。 SketchX 利用人工智能,试图通过我们绘制世界的方式来理解我们看待世界的方式。
以人为本的人工智能研究所联合所长、SketchX 负责人宋一哲教授表示:“这项研究是人工智能如何增强素描等基本人类活动的一个很好的例子。通过用接近人类的方式理解粗略的绘图,准确性,这项技术具有巨大的潜力,可以增强人们的自然创造力,无论艺术能力如何。”
该研究已发布到 arXiv 该论文将在 2024 年 6 月 17 日至 21 日在西雅图举行的 IEEE/CVF 计算机视觉和模式识别会议 (CVPR 2024) 上发表。
更多信息: Ahmed Bourouis 等人,开放词汇语义场景草图理解, arXiv (2023)。作者:10.48550/archiv.2312.12463
期刊信息: arXiv
由...提供 萨里大学