GPT-4 写代码不如 ChatGPT，误用率高达 62%！加州大学两位华人开源代码可靠性基准 RobustAPI - AI前沿

首页 > AI技术

GPT-4 写代码不如 ChatGPT，误用率高达 62%！加州大学两位华人开源代码可靠性基准 RobustAPI

6 月 06, 2025 AI前沿

27 0

JS滚动广告

✨ AI前沿 | 每日人工智能最新资讯 ✨

大型语言模型（LLM）在理解自然语言和生成程序代码方面展现出了非凡的性能。经过几版迭代后，目前 LLM 生成的代码已经很少有语法错误了，也更贴合用户输入的文本、符合预期语义。但针对 LLM 代码生成的可靠性和鲁棒性仍然缺乏彻底的研究。加州大学的两位华人研究人员发布了一个用于评估生成代码可靠性和鲁棒性的新数据集 RobustAPI，包括从 StackOverflow 中收集得到的 1208 个编码问题，涉及 24 个主流 Java API 的评估。研究人员总结了这些 API 的常见误用模式，并在当下常用的 LLM 上对其进行评估，结果表明，即使是 GPT-4，也有高达 62% 的生成代码包含 API 误用问题，如果代码被实际部署，可能会导致意想不到的后果。

ChatGPT GPT-4 RobustAPI

发表评论

取消回复