认知心理学测试表明人工智能是非理性的——只是与人类不同

菲梦 2023-05-30 阅读:99 评论:0
经过 伦敦大学学院 伦敦大学学院研究人员的一项新研究发现,当被要求对相同的推理测试做出反应时,ChatGPT 等流行的生成式人工智能平台背后的大型语言模型给出了不同的答案,并且在给予额外的上下文时并没有得到改善。 该研究发表于...

经过 伦敦大学学院

伦敦大学学院研究人员的一项新研究发现,当被要求对相同的推理测试做出反应时,ChatGPT 等流行的生成式人工智能平台背后的大型语言模型给出了不同的答案,并且在给予额外的上下文时并没有得到改善。

该研究发表于 英国皇家学会开放科学 ,使用认知心理学测试来测试最先进的大语言模型(LLM),以衡量其推理能力。结果强调了在将任务委托给人工智能之前了解它们如何“思考”的重要性,特别是那些涉及决策的任务。

近年来,为 ChatGPT 等生成式人工智能应用程序提供支持的法学硕士变得越来越复杂。他们制作真实文本、图像、音频和视频的能力引发了人们对他们窃取工作、影响选举和犯罪能力的担忧。

然而,这些人工智能也被证明经常捏造信息、做出不一致的反应,甚至会弄错简单的数学求和。

在这项研究中,伦敦大学学院的研究人员系统地分析了七名法学硕士是否具有理性推理能力。作者采用的理性主体(人类或人工)的常见定义是它是否根据逻辑和概率规则进行推理。非理性主体是指不根据这些规则进行推理的主体。

法学硕士接受了一系列来自认知心理学的 12 项常见测试来评估推理,包括沃森任务、琳达问题和蒙蒂霍尔问题。人类解决这些任务的能力很低;在最近的研究中,只有 14% 的参与者答对了 Linda 问题,16% 的参与者答对了 Wason 任务。

这些模型的许多答案都表现出不合理性,例如当同一问题问 10 次时,会提供不同的答案。他们很容易犯一些简单的错误,包括基本的加法错误和将辅音误认为元音,从而导致他们提供错误的答案。

例如,Wason 任务的正确答案范围为 GPT-4 的 90% 到 GPT-3.5 和 Google Bard 的 0%。 Llama 2 70b 的回答正确率为 10%,但他将字母 K 误认为是元音,因此回答错误。

虽然大多数人也无法正确回答沃森任务,但这不太可能是因为他们不知道元音是什么。

伦敦大学学院计算机科学系这项研究的第一作者奥利维亚·麦克米兰-斯科特 (Olivia Macmillan-Scott) 表示:“根据我们的研究结果和其他大型语言模型的研究结果,可以肯定地说,这些模型还不能像人类一样‘思考’。”据说,拥有最大数据集的模型 GPT-4 的表现比其他模型好得多,这表明它们正在迅速改进。但是,很难说这个特定模型的原因,因为我怀疑它是一个封闭的系统。是您在其前身 GPT-3.5 中找不到的其他正在使用的工具。”

一些模型出于道德原因拒绝回答这些任务,即使这些问题是无辜的。这可能是由于保护参数未按预期运行的结果。

更多信息: 奥利维亚·麦克米兰-斯科特和米尔科·穆索莱西。大型语言模型中的(非)理性和认知偏差, 英国皇家学会开放科学 (2024)。 DOI:10.1098/rsos.240255。 Royalsocietypublishing.org/doi/10.1098/rsos.240255

期刊信息: 英国皇家学会开放科学

由...提供 伦敦大学学院

分享:

扫一扫在手机阅读、分享本文

热门文章
  • 苹果面临在开发者大会上交付人工智能的压力

    苹果面临在开发者大会上交付人工智能的压力
    作者:格伦·查普曼 预计苹果公司将于下周证明,在科技界的竞争对手在人工智能领域大放异彩之际,它并没有被抛在后面。 分析师称,人工智能,甚至与 ChatGPT 制造商 OpenAI 的合作,都可能成为周一在硅谷举行的苹果年度 WWDC 开发者大会的主题。 这次会议是为苹果生态系统创建应用程序和软件的开发人员举办的年度盛会,首席执行官蒂姆库克将努力说服他们,随着竞争对手微软和谷歌连续快速推出创新,该公司是人工智能的关键参与者。 尽管苹果多年来一直在其 iPho...
  • 法国国家铁路公司 (SNCF) 将在意大利提供高速客运线路

    法国国家铁路公司 (SNCF) 将在意大利提供高速客运线路
    通过安东尼·盖伊 法国国家铁路运营商 SNCF 周三表示,计划从 2026 年起在邻国意大利提供高速客运服务,在其本土与竞争对手 Trenitalia 竞争。 SNCF Voyageurs 城际 TGV(高速列车)服务主管 Alain Krakovitch 表示:“意大利是一个天然的高速列车市场,每年接待 5600 万名乘客。” “但这是一个尚未成熟的市场,仍有许多乘客需要引进。” SNCF 计划最终在都灵、米兰、罗马和那不勒斯之间提供每日 9 趟往返列车...
  • 新的168飞艇官方开奖历史记录查询图形处理技术比现有解决方案显示出显着的速度优势

    新的168飞艇官方开奖历史记录查询图形处理技术比现有解决方案显示出显着的速度优势
    经过168飞艇官方开奖历史记录查询高等教育出版社管理大规模图数据的行业对高效、快速的数据处理工具的需求导致了 GraphCP 的发展,这项技术可以显着提高处理速度。GraphCP不仅满足甚至大大超过了现有图处理系统的性能:这种性能改进使 GraphCP 成为依赖快速高效的图形数据处理的应用程序的领先解决方案。该研究的通讯作者 Yongli Cheng 表示:“GraphCP 在减少冗余数据访问和提高 I/O 带宽利用率方面的进步有助于我们领域的发展。”凭借其增强的速度,Gra...
  • 3D打印的微型执行器可以移动小型软机器人,将它们锁定成新的形状

    3D打印的微型执行器可以移动小型软机器人,将它们锁定成新的形状
    通过马特·希普曼 , 北卡罗来纳州立大学 北卡罗来纳州立大学的研究人员展示了微型软液压执行器,可用于控制厚度不到一毫米的软机器人的变形和运动。研究人员还证明,这项技术适用于形状记忆材料,允许用户反复将软机器人锁定为所需的形状,并根据需要返回到原始形状。 “软机器人技术在许多应用中都有前景,但设计小规模驱动软机器人运动的执行器具有挑战性,”该工作论文的通讯作者、机械和航空航天副教授杰尹说。北卡罗来纳州立大学的工程学。 “我们的方法利用商用多材料 3D 打印技术和...
  • 四足狗形机器人幸运飞行艇168官方开奖在人迹罕至的环境中“嗅探”有害气体

    四足狗形机器人幸运飞行艇168官方开奖在人迹罕至的环境中“嗅探”有害气体
    经过 美国化学会噩梦材料还是真正人类最好的朋友?幸运飞行艇168官方开奖一组研究人员为一个像狗一样的四足机器人配备了机械臂,可以从潜在危险的情况下采集空气样本,例如废弃的建筑物或火灾。在《2019》上发表研究的团队表示,机器狗会将样本带到一个人面前,由他筛选样本中是否存在潜在危险的化合物。 分析化学 。虽然该系统需要进一步完善,但演示显示了其在危险条件下的潜在价值。对于科学家和技术人员来说,在危险工作场所或火灾等事故后测试空气中的危险化学品是一项重要但非常危险的任务。为了...