不用4个H100！340亿参数Code Llama在Mac可跑，每秒20个token，代码生成最拿手｜Karpathy转赞 - AI前沿

首页 > AI技术

不用4个H100！340亿参数Code Llama在Mac可跑，每秒20个token，代码生成最拿手｜Karpathy转赞

6 月 06, 2025 AI前沿

3 0

JS滚动广告

✨ AI前沿 | 每日人工智能最新资讯 ✨

开源社区的一位开发者Georgi Gerganov发现,自己可以在M2 Ultra Mac上运行全F16精度的34B Code Llama模型,而且推理速度超过了20 token/s。这主要得益于「投机采样」技术的应用。投机采样让一个小模型先生成候选序列,然后再交给大模型进行校验修正。这样可以跳过大模型处理简单token的时间,从而加速整个生成过程。Karpathy等人对此次实践进行了解释分析。这表明投机采样是一种可以有效加速LLM推理速度的技术手段。34亿参数的大模型能够在Mac笔记本上流畅运行,说明模型落地需要多个组件有效协同,不能单凭参数量大小决定效果。

Code Llama Mac 投机采样

发表评论

取消回复