刚刚,DeepSeek-Prover-V2-671B开源模型来了

JS滚动广告
✨ AI前沿 | 每日人工智能最新资讯 ✨

一到假期,DeepSeek就要搞事!但不是DeepSeek-R2

刚刚,DeepSeek开源了新模型:DeepSeek-Prover-V2-671B。

链接:下方

不到一个小时就收获了123个 like。

根据DeepSeek-Prover-V2-671B的config.json配置文件,我们能读到有关该模型的一些信息。

首先,从名字也能看出,该模型的参数量为 671B,采用的基础模型架构为 Deepseek-V3,也因此,很多配置都与 DeepSeek-V3 一样。比如MoE 中间层大小为 2048, moe_layer_freq 设置为1,表明每层都是 MoE 层,每个MoE 层包含1 个共享专家和256 个路由专家,每个 token 会激活 8 个专家。最大可处理 163,840 长度的上下文。

刚刚,DeepSeek-Prover-V2-671B开源模型来了-项目/模型网址:

发表评论