不用4个H100!340亿参数Code Llama在Mac可跑,每秒20个token,代码生成最拿手|Karpathy转赞
开源社区的一位开发者Georgi Gerganov发现,自己可以在M2 Ultra Mac上运行全F16精度的34B Code Llama模型,而且推理速度超过了20 token/s。这主要得益于「投机采样」技术的应用。投机采样让一个小模型先生成候选序列,然后再交给大模型进行校验修正。这样可以跳过大模型处理简单token的时间,从而加速整个生成过程。Karpathy等人对此次实践进行了解释分析。这表明投机采样是一种可以有效加速LLM推理速度的技术手段。34亿参数的大模型能够在Mac笔记本上流畅运行,说明模型落地需要多个组件有效协同,不能单凭参数量大小决定效果。
发表评论