图灵测试已死!ChatGPT 通过人类考试也不算,超强 AI 评估新秀「逻辑谜题」
图灵测试已不适合评估当今强大AI系统能力,ChatGPT可以通过各种考试骗过人类,但在解决简单视觉逻辑难题上几乎无能为力。MIT等研究团队设计新的逻辑谜题ConceptARC来测试AI系统,结果显示ChatGPT的表现远远落后人类。人类参试者平均正确率达91%,而ChatGPT不同类别测试中的正确率仅有1/3和3%。研究人员表示新型逻辑谜题有助揭示AI系统的局限,也有助推动建立更好的AI能力评估标准,但设计公平有效的AI测试仍有很大难度和争议。当前语言模型对抽象推理的能力有限,随着参数继续扩大,推理能力也会提升。
发表评论