人工智能(AI)能否通过为人类智商测试设计的认知谜题?结果喜忧参半。
南加州大学维特比工程信息科学学院(ISI)的研究人员研究了多模态大语言模型(mllm)是否可以解决通常为人类保留的抽象视觉测试。
上周在费城举行的语言建模会议(COLM 2024)上,这项研究测试了“开源和闭源mllm的非语言抽象推理能力”,通过观察图像处理模型是否能更进一步,在面对视觉谜题时展示推理技能。
据《神经科学新闻》报道,该项目的研究助理Kian Ahrabian解释说:“例如,如果你看到一个黄色的圆圈变成了一个蓝色的三角形,这个模型能在不同的场景中应用同样的模式吗?”这项任务要求模型使用类似于人类思维的视觉感知和逻辑推理,使其成为一个更复杂的挑战。
研究人员测试了24种不同的mlm,这些mlm是由Raven's Progressive Matrices(一种标准的抽象推理)开发的谜题,而人工智能模型并没有完全成功。
“他们真的很糟糕。他们不能从中得到任何东西,”Ahrabian说。这些模型既要努力理解视觉效果,又要努力解释模式。
然而,结果各不相同。总的来说,研究发现,开源模型在视觉推理难题上比GPT-4V等闭源模型更困难,尽管这些模型仍然无法与人类的认知能力相媲美。研究人员使用一种叫做“思维链提示”的技术帮助一些模型表现得更好,这种技术可以引导模型一步一步地完成测试的推理部分。
闭源模型被认为在这样的测试中表现更好,因为它是专门开发的,用更大的数据集训练,并且具有私营公司计算能力的优势。“具体来说,GPT-4V在推理方面相对较好,但远非完美,”Ahrabian指出。
研究副教授兼作者杰伊·普哈拉(Jay Pujara)表示:“我们对新的人工智能模型的理解仍然有限,在我们了解这些限制之前,我们无法让人工智能变得更好、更安全、更有用。”“这篇论文有助于填补人工智能在哪里挣扎的缺失部分。”
通过发现人工智能模型推理能力的弱点,这样的研究可以帮助我们进一步充实这些技能——目标是实现人类水平的逻辑。但别担心:目前,它们还无法与人类的认知相提并论。