清华团队领衔打造,首个 AI agent 系统性基准测试问世

JS滚动广告
✨ AI前沿 | 每日人工智能最新资讯 ✨

清华大学等团队发布了首个 AI agent 系统性基准测试 AgentBench,对 25 个不同语言模型进行了全面评估。研究结果显示,GPT-4 在复杂环境中表现出色,顶级商业语言模型与开源模型存在显著优势。研究团队建议进一步提高开源模型的学习能力。

发表评论