Meta 官宣开源原生多模态 Llama 4,性能强劲引关注
《Meta 官宣开源原生多模态 Llama 4,性能强劲引关注》相关软件官网
美国科技巨头 Meta 推出了其最强大的开源人工智能模型 Llama4。此次首批发布共两款,分别是 Llama4Scout 和 Llama4Maverick 。
Llama4Scout 共有1090亿参数,170亿活跃参数,16个专家,最大亮点是支持1000万上下文,这相当于可以处理20+ 小时的视频,并且仅在单个 H100GPU(Int4量化后)上就能运行。在基准测试中,其性能超越 Gemma3、Gemini2.0Flash – Lite、Mistral3.1。
Llama4Maverick 共有4000亿参数,170亿活跃参数,128个专家,100万上下文。在大模型 LMSYS 排行榜上,Llama4Maverick 冲上第二(ELO 得分1417),仅次于闭源 Gemini2.5Pro,且仅用一半参数,其推理编码能力就与 DeepSeek – v3-0324实力相当。
另外,还有更强大的2万亿参数 Llama4Behemoth 将在未来几个月面世,它有2880亿活跃参数,16个专家,目前在 STEM 基准测试中,已超越了 GPT -4.5、Claude Sonnet3.7、Gemini2.0Pro。
Llama4系列首次采用混合专家(MoE)架构,该架构在训练和回答用户查询时效率更高。Llama4还是原生多模态模型,采用早期融合技术,能无缝整合文本和视觉 token。同时,Meta 还升级了视觉编码器,并开发了新训练方法 MetaP 来优化超参数。即日起,开发者可以在llama.com和 Hugging Face 下载这两款最新模型。
Meta 官宣开源原生多模态 Llama 4,性能强劲引关注-项目/模型网址:
Meta 官宣开源原生多模态 Llama 4,性能强劲引关注
Meta 最新发布的 Llama 4 系列开源大模型凭借其 原生多模态能力、高效 MoE 架构和超长上下文支持,迅速引发行业关注。此次发布的模型包括 Llama 4 Scout、Llama 4 Maverick 和仍在训练中的 Llama 4 Behemoth,在推理、编码和多模态任务上表现卓越,甚至部分超越 GPT-4o 和 Gemini 2.0。
Llama 4 核心亮点
1. 原生多模态,视觉理解能力大幅提升
早期融合(Early Fusion)架构:文本、图像、视频等数据在预训练阶段即统一处理,而非分阶段训练,显著提升跨模态推理能力。
支持单次输入8张图像,可执行复杂视觉问答(VQA)、图像区域标注等任务。
MetaCLIP 视觉编码器优化,与语言模型联合训练,增强图文理解一致性。
2. 混合专家(MoE)架构,推理效率翻倍
Llama 4 Scout(170亿活跃参数/1090亿总参数)可在 单张 H100 GPU 运行,适合轻量级部署。
Llama 4 Maverick(170亿活跃参数/4000亿总参数)仅需 H100 DGX 单机,推理成本低至 $0.19–$0.49/百万 tokens,远低于 GPT-4o($4.38/百万 tokens)。
Behemoth(2880亿活跃参数/2万亿总参数) 仍在训练,预计将成为最强开源模型。
3. 超长上下文支持,最高1000万 tokens
Scout 支持 1000 万 tokens(约 2000 万字或 20 小时视频),适用于 长文档分析、代码库推理 等任务。
Maverick 支持 100 万 tokens,在 DocVQA、MathVista 等基准测试中超越 GPT-4o 和 Gemini 2.0。
iRoPE 架构(交错注意力层+推理时温度缩放)实现短序列训练、长序列泛化。
4. 训练技术创新:MetaP 超参数优化 FP8 高效训练
MetaP 技术:通过小模型实验预测大模型超参数,节省训练成本。
FP8 低精度训练:Behemoth 采用 32,000 块 GPU 训练,单卡算力达 390 TFLOPs。
后训练流程优化:轻量级 SFT → 在线 RL → 轻量级 DPO,减少对齐约束,增强推理能力。
5. 性能对标行业顶尖模型
发表评论