大模型生成提速2倍!北大数院校友共同一作Medusa开源

JS滚动广告
✨ AI前沿 | 每日人工智能最新资讯 ✨

北大数院校友共同一作Medusa开源,是一种通过增加解码头来提速大模型推理的方法。与传统的投机采样相比,Medusa在推理准确率上有显著提高,达到60%。研究的共同一作是北大数院的Yuhong(Jesse)Li,专注于高效机器学习。此外,Medusa的开发团队还包括FlashAttention的作者Tri Dao。这一方法有望加速大模型的推理,而无需额外训练模型或进行硬件优化。

发表评论