华人团队推出 Medusa 简单框架 可将 LLM 推理速度提高 2 倍

JS滚动广告
✨ AI前沿 | 每日人工智能最新资讯 ✨

来自普林斯顿、UIUC 等机构的华人团队提出一个用于加速大型语言模型推理速度的简单框架 Medusa,并于 9 月 12 日开源发布。测试结果显示,Medusa 可以将 LLM 的生成效率提高约 2 倍。研究人员通过在原有模型上增加额外的解码头,实现了多解码头技术,训练时对原模型进行微调,生成时通过树形 attention 机制合并多个预测。该框架为 Vicuna 系列模型带来了约 2 倍的加速,并正在积极扩展应用场景。

发表评论