清华团队领衔打造，首个 AI agent 系统性基准测试问世

6 月 06, 2025 AI前沿

24 0

JS滚动广告

✨ AI前沿 | 每日人工智能最新资讯 ✨

清华大学等团队发布了首个 AI agent 系统性基准测试 AgentBench，对 25 个不同语言模型进行了全面评估。研究结果显示，GPT-4 在复杂环境中表现出色，顶级商业语言模型与开源模型存在显著优势。研究团队建议进一步提高开源模型的学习能力。

导航菜单