返回博客

Meta开源Llama 4 400B,性能逼近GPT-5但成本仅一半

2026年6月12日阅读约 6 分钟
Meta开源Llama 4 400B,性能逼近GPT-5但成本仅一半

Meta今夜开源Llama 4 400B模型,采用MoE架构,在MMLU和Codex上超越GPT-4o,训练成本仅为GPT-5的48%。

Meta Llama 4 400B正式开源,开源社区迎来最强模型

2026年6月12日,门洛帕克——Meta AI今日在官方博客宣布正式开源Llama 4 400B模型,这是迄今为止规模最大的开源大语言模型之一。该模型采用混合专家架构(MoE),总参数量4050亿,每次推理仅激活420亿参数。

性能表现:

在MMLU基准测试中,Llama 4 400B取得91.2%的准确率,在HumanEval代码生成任务上达到89.6%,全面超越GPT-4o(89.5%/86.4%),并与GPT-5(92.7%/96.8%)在数学推理上差距缩小至2个百分点以内。Meta特别强调,其训练总成本约2.8亿美元,仅为GPT-5预计训练成本(5.8亿美元)的48%。

技术细节:

  • 训练数据:20万亿Token,包含70%公开网页、15%代码库、10%学术论文和5%合成数据
  • 架构创新:引入“专家注入”机制,每个Token可动态选择8个专家,提升长文本处理效率
  • 上下文长度:原生支持128K Token,可通过扩展至512K

Meta CEO马克·扎克伯格在声明中表示:“Llama 4证明了开源生态可以与闭源巨头同台竞技。我们已经与微软Azure、AWS和Google Cloud合作,提供托管微调服务。”

开源生态反应:

消息公布后,Hugging Face上Llama 4 400B在一小时内被下载超过15万次。国内开源社区魔搭(ModelScope)也同步镜像。百度文心、阿里通义千问和智谱AI等纷纷表示将基于Llama 4进行二次开发。

研究突破意义:

Llama 4 400B取得成功的背后是多项创新的结合。Meta研究院公开了“渐进式专家增长”训练技术,从2个专家逐步扩展到128个专家,大幅降低训练不稳定性。此外,其使用的“条件指令调优”方法使得模型在通用任务和特定领域任务上的平衡达到新高度。

行业影响:

大型科技公司必须重新审视其开源策略。谷歌此前宣布Gemma 3仅开源270B参数版本,而微软Phi-4系列则主打小模型。开源社区力量迫使闭源模型降价:今日OpenAI宣布GPT-5 API价格下调30%。

未来展望:

Meta承诺年底前发布Llama 4 1T版本,并持续开源。不过,关于模型权重是否需要监管审查的讨论也再次升温。