经过 伦敦大学学院
伦敦大学学院研究人员的一项新研究发现,当被要求对相同的推理测试做出反应时,ChatGPT 等流行的生成式人工智能平台背后的大型语言模型给出了不同的答案,并且在给予额外的上下文时并没有得到改善。
该研究发表于 英国皇家学会开放科学 ,使用认知心理学测试来测试最先进的大语言模型(LLM),以衡量其推理能力。结果强调了在将任务委托给人工智能之前了解它们如何“思考”的重要性,特别是那些涉及决策的任务。
近年来,为 ChatGPT 等生成式人工智能应用程序提供支持的法学硕士变得越来越复杂。他们制作真实文本、图像、音频和视频的能力引发了人们对他们窃取工作、影响选举和犯罪能力的担忧。
然而,这些人工智能也被证明经常捏造信息、做出不一致的反应,甚至会弄错简单的数学求和。
在这项研究中,伦敦大学学院的研究人员系统地分析了七名法学硕士是否具有理性推理能力。作者采用的理性主体(人类或人工)的常见定义是它是否根据逻辑和概率规则进行推理。非理性主体是指不根据这些规则进行推理的主体。
法学硕士接受了一系列来自认知心理学的 12 项常见测试来评估推理,包括沃森任务、琳达问题和蒙蒂霍尔问题。人类解决这些任务的能力很低;在最近的研究中,只有 14% 的参与者答对了 Linda 问题,16% 的参与者答对了 Wason 任务。
这些模型的许多答案都表现出不合理性,例如当同一问题问 10 次时,会提供不同的答案。他们很容易犯一些简单的错误,包括基本的加法错误和将辅音误认为元音,从而导致他们提供错误的答案。
例如,Wason 任务的正确答案范围为 GPT-4 的 90% 到 GPT-3.5 和 Google Bard 的 0%。 Llama 2 70b 的回答正确率为 10%,但他将字母 K 误认为是元音,因此回答错误。
虽然大多数人也无法正确回答沃森任务,但这不太可能是因为他们不知道元音是什么。
伦敦大学学院计算机科学系这项研究的第一作者奥利维亚·麦克米兰-斯科特 (Olivia Macmillan-Scott) 表示:“根据我们的研究结果和其他大型语言模型的研究结果,可以肯定地说,这些模型还不能像人类一样‘思考’。”据说,拥有最大数据集的模型 GPT-4 的表现比其他模型好得多,这表明它们正在迅速改进。但是,很难说这个特定模型的原因,因为我怀疑它是一个封闭的系统。是您在其前身 GPT-3.5 中找不到的其他正在使用的工具。”
一些模型出于道德原因拒绝回答这些任务,即使这些问题是无辜的。这可能是由于保护参数未按预期运行的结果。
更多信息: 奥利维亚·麦克米兰-斯科特和米尔科·穆索莱西。大型语言模型中的(非)理性和认知偏差, 英国皇家学会开放科学 (2024)。 DOI:10.1098/rsos.240255。 Royalsocietypublishing.org/doi/10.1098/rsos.240255
期刊信息: 英国皇家学会开放科学
由...提供 伦敦大学学院