GPT-4 写代码不如 ChatGPT,误用率高达 62%!加州大学两位华人开源代码可靠性基准 RobustAPI
大型语言模型(LLM)在理解自然语言和生成程序代码方面展现出了非凡的性能。经过几版迭代后,目前 LLM 生成的代码已经很少有语法错误了,也更贴合用户输入的文本、符合预期语义。但针对 LLM 代码生成的可靠性和鲁棒性仍然缺乏彻底的研究。加州大学的两位华人研究人员发布了一个用于评估生成代码可靠性和鲁棒性的新数据集 RobustAPI,包括从 StackOverflow 中收集得到的 1208 个编码问题,涉及 24 个主流 Java API 的评估。研究人员总结了这些 API 的常见误用模式,并在当下常用的 LLM 上对其进行评估,结果表明,即使是 GPT-4,也有高达 62% 的生成代码包含 API 误用问题,如果代码被实际部署,可能会导致意想不到的后果。
发表评论