ExllamaV2:一个用于在现代消费GPU上运行本地LLM的推理库

JS滚动广告
✨ AI前沿 | 每日人工智能最新资讯 ✨

ExllamaV2是一个用于在普通消费级GPU上高效运行大规模语言模型的推理库。它支持新的可调量化格式EXL2,实现了1.5-2倍的性能提升。该项目目标是成为易于入门使用的LLM推理方案,与HuggingFace模型兼容,提供交互式示例,可以无障碍体验LLM带来的强大能力。整体来说,ExllamaV2为利用家用GPU资源运行大规模语言模型提供了切实可行的途径。

发表评论