智东西
编译 ZeR0
编辑 漠影
4 月 6 日,智东西有相关报道。今日,Meta 发布了 Llama 4 系列的首批模型。这些模型包括两款高效模型,分别是 Llama 4 Scout 和 Llama 4 Maverick。Meta 发布的这是其首款采用混合专家(MoE)架构构建的原生多模态模型。其中,Scout 首次支持超长 10M 上下文窗口。它被称为 Llama 4 Behemoth。
“小杯”Llama 4 Scout具备 16 位专家。它拥有 170 亿个活跃参数以及 1090 亿个总参数。它被称作“同类产品中全球最好的多模态模型”。它能提供 1000 万 tokens 上下文窗口,此窗口对应多达 500 万个单词的文本。它适用于单张 NVIDIA H100 GPU 且具有 Int4 量化。它在广泛基准测试中的分数超过了 Gemma 3、Gemini 2.0 Flash-Lite、Mistral 3.1。
其活跃参数不到新 DeepSeek-v3 的一半。
Llama 4 Maverick 以性价比为主要特点。它的实验性聊天版本在 LMArena 上的 ELO 得分是 1417。每 1M tokens 的输入和输出推理成本区间在 0.19 到 0.49 美元之间。这个成本区间接近甚至低于 DeepSeek v3.1 的 0.48 美元。
这些成绩是因为提炼了 Meta 迄今最强大的模型“巨杯”Llama 4 Behemoth。Llama 4 Behemoth 有 16 位专家参与,拥有 2880 亿个活跃参数,总参数近 2 万亿个。它在多个 STEM 基准测试中的表现比 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro 都要好。
Llama 4 Behemoth 正在进行训练,目前还没有正式发布。然而,Meta 率先分享了一些技术方面的细节。
Llama 4 Scout 和 Lama 4 Maverick 模型可从 llama.com 和 Hugging Face 进行下载。这些模型即将在主流云和数据平台、边缘芯片以及全球服务集成商上提供。
模型下载地址:
llama.com/llama-downloads/
huggingface.co/meta-llama
即日起,用户在 Meta.AI 网站上可试用由 Llama 4 构建的 Meta AI。
Meta 预告会在 4 月 29 日的 LlamaCon 上分享更多有关其愿景的相关内容。
一、MoE架构+多种预训练新方法,提高算力利用率
构建下一代Llama模型在预训练期间采用了多种新方法。
新 Llama 4 模型是 Meta 首批采用混合专家(MoE)架构的模型。单个 token 在 MoE 模型中只会激活总参数的一小部分。MoE 架构在训练和推理方面的计算效率更高,并且在给定固定训练 FLOP 预算的情况下,与密集模型相比,能够提供更高的质量。
Llama 4 Maverick 模型的活跃参数数量为 17B 个,总参数数量为 400B 个。Meta 通过采用交替的密集层和混合专家(MoE)层的方式来提升推理效率。
MoE 层配备了 128 位路由专家以及一位共享专家。每个 token 会被发送给共享专家,同时也会发送给 128 位路由专家中的一位。所以,尽管所有参数都被存储在内存里,但是在为这些模型提供服务的过程中,只有总参数的一部分会被激活。
降低模型服务成本和延迟能够提高推理效率。Llama 4 Maverick 能够在单台 NVIDIA H100 DGX 主机上运行,这样便于部署。同时,它还可以通过分布式推理来实现最高效率。
Llama 4 模型采用原生多模态的设计方式,并且结合了早期融合这一方式。它把文本和视觉 token 能够无缝地集成到统一的模型主干当中。早期融合是一个重要的向前迈进的步骤,因为通过这种方式,Meta 能够利用大量未标记的文本、图像以及视频数据来联合预训练该模型。
Meta 对 Llama 4 中的视觉编码器进行了改进。其视觉编码器基于 MetaCLIP,并且是与冻结的 Llama 模型一起单独进行训练的,这样做的目的是为了能让编码器更好地适应大语言模型。
Meta 开发了一种名为 MetaP 的新训练技术。这种技术能够可靠地设定关键的模型超参数。比如每层的学习率以及初始化尺度等。该团队察觉到,所选取的超参数在不同的 batch 处理大小、模型宽度、深度和训练 token 值之间,具备良好的迁移性。
Llama N 实现开源微调工作是通过对 200 种语言进行预训练。这些语言中有 100 多种,且每种语言都有超过 10 亿个 token。总体来看,多语言 tokens 比 Llama 3 多 10 倍。
Meta 致力于利用 FP8 精度来开展高效的模型训练。它不会降低质量,还能确保较高的模型 FLOP 利用率。在对 Llama 4 Behemoth 模型进行预训练时,使用 FP8 和 32K GPU,Meta 达到了 390 TFLOPs/GPU。用于训练的整体数据组合的规模很大,由超过 30 万亿个 token 构成。这个数据组合比 Llama 3 的预训练组合要大两倍多,它包含了各种不同类型的数据集,如文本、图像和视频等。
Meta 持续在所谓的“中期训练”阶段对模型进行训练。通过使用新的训练方案,其中包括运用专门的数据集来进行长上下文的扩展,以此来提升核心功能。这使得它能够提高模型的质量,并且为 Llama 4 Scout 开启了长达 10M 的超长输入上下文长度。
二、改进后训练流程,权衡计算和准确性
新 Llama 4 模型存在不同的大小。Llama 4 Maverick 在图像理解以及文本理解方面展现出行业领先的性能。它能够支持创建复杂的 AI 应用程序,从而跨越语言障碍。作为 Meta 针对通用助手和聊天用例的主要产品模型,Llama 4 Maverick 尤其适合精确的图像理解以及创意写作。
在对 Llama 4 Maverick 模型进行后训练的过程中,最大的挑战在于要在多种输入模式、推理以及对话能力之间实现平衡。对于混合模式,Meta 提出了一个经过精心策划的课程策略,并且这个策略与单个模式的专家模型相比,不会使性能受到牺牲。
Meta借助Llama 4,采用了不同的方法来改进后训练流程。首先是轻量级监督微调(SFT),接着是在线强化学习(RL),最后是轻量级直接偏好优化(DPO)。
SFT 和 DPO 可能会过度约束模型,这是一个关键的学习。它们会限制在线强化学习阶段的探索,进而导致准确性不理想,尤其在推理、编程和数学领域。
Meta 为了解决这个问题,将 Llama 模型当作判断标准,把 50%以上标记为简单的数据给删除了,同时对剩下的较难数据集进行了轻量级的 SFT。
在后续的多模态在线强化学习阶段,Meta 可以通过精心挑选更具难度的提示,从而达成性能的阶跃式变化。
Meta 实施了一种持续在线的 RL 策略,先对模型进行交替训练,接着用它来持续地进行过滤操作,并且只保留中等难度到困难难度的提示。事实表明,这种策略在计算方面和准确性的权衡上有着很大的益处。
Meta 做了一个轻量级的 DPO,用以处理与模型响应质量相关的极端情况。这样做有效地在模型的智能与对话能力之间达成了良好的平衡。管道架构以及具有自适应数据过滤的持续在线 RL 策略,最终造就了业界领先的通用聊天模型,该模型具备先进的智能和图像理解能力。
Llama 4 Maverick 是通用大语言模型,它包含 170 亿个活跃参数,有 128 位专家,总参数达 4000 亿个。与 Llama 3.3 70B 相比,它能以更低价格提供高质量服务。
Llama 4 Maverick 是多模态模型中最为优秀的。它在编程方面超越了 GPT-4o 等同类模型,在推理方面也超越了 GPT-4o 等同类模型。它在多语言方面超越了 GPT-4o 等同类模型,在长上下文方面超越了 GPT-4o 等同类模型,在图像基准测试方面超越了 GPT-4o 等同类模型。并且它在编程和推理方面可与 DeepSeek v3.1 相媲美,而 DeepSeek v3.1 的活跃参数规模要大得多。
小型模型 Llama 4 Scout 是通用模型。它拥有 170 亿个活动参数。它还有 16 位专家。它总计有 1090 亿个参数。它能提供同类中一流的性能。还适用于对庞大的代码库进行推理。
Llama 4 Scout 经历了预训练以及后训练,它的上下文长度为 256K,这种上下文长度为基础模型赋予了高级长度泛化的能力。
Meta 在一些任务中展示了令人信服的结果,比如对文本进行类似“大海捞针”般的检索,还有对 1000 万个代码 token 进行累积负对数似然(NLL)的任务。
Llama 4 架构的一个关键创新在于使用了没有位置嵌入的交错注意层。Meta 还采用了注意力的推理时间温度缩放,以此来增强长度泛化,并且将其称为 iRoPE 架构。在这个架构中,“i”代表“交错”注意层,这突出了其支持“无限”上下文长度的长期目标,而“RoPE”指的是在大多数层中使用的旋转位置嵌入。
Meta 训练了两个模型,使用各种图像和视频帧的静态图像。其目的是让这些模型具备广泛的视觉理解能力,涵盖时间活动以及相关图像。这样一来,多图像输入以及用于视觉推理和理解任务的文本提示就能够轻松地进行交互。这些模型先是在多达 48 张图像上进行预训练,之后又在测试时使用多达 8 张图像,并且取得了良好的效果。
Llama 4 Scout 在图像基础方面表现良好。它能够使用户提示与相关的视觉概念相契合,还能将模型响应固定在图像中的区域。这让大语言模型能更精准地回答视觉问题,进而更好地理解用户的意图并找到感兴趣的对象。
该模型在编程方面超越了同类模型,在推理方面超越了同类模型,在长上下文方面超越了同类模型,在图像基准方面也超越了同类模型,并且比所有以前的 Llama 模型都具有更强大的性能。
Llama 4 Behemoth 有近 2 万亿的总参数,并且对底层基础设施进行了改造。
Llama 4 Behemoth 是一个教师模型,同时也是一个多模态专家混合模型。它拥有 2880 亿个活跃参数,有 16 个专家,总参数近 2 万亿个。在数学、多语言和图像基准测试中,它为非推理模型提供了先进性能。
Meta 研发了一种全新的提炼损失函数,能够借助训练动态加权软目标与硬目标。在预训练阶段,从 Lama 4 Behemoth 进行共同提炼,这样就能分摊计算学生训练中所使用的大部分训练数据的提炼目标时所需的资源密集型前向传递的计算成本。Meta 进行前向传递是为了在学生训练中加入更多新数据,目的是创建提炼目标。
对拥有 2 万亿个参数的模型进行后期训练是一项重大挑战。这一挑战需要从数据规模方面进行彻底改革,并且要改进配方。为了使性能达到最大限度,必须修剪 95%的 SFT 数据。而对于较小的模型,需要修剪 50%。这样才能实现对质量和效率的必要关注。
Meta 发现,进行轻量级 SFT 之后再进行大规模强化学习(RL),能够更明显地提升模型的推理和编程能力。Meta 的 RL 配方着重于通过利用策略模型进行 pass@k 分析,从而对硬提示进行采样,并且制定出提升提示难度的训练课程。
Meta 发现,在训练期间把没有优势的提示动态过滤掉,并且使用来自多种功能的混合提示来构建训练批次,这样做有助于提升数学、推理和编程的性能。
最后,从各种系统指令中进行采样是很重要的。这能确保模型保留其推理能力,也能确保模型保留其编程的指令遵循能力,并且能够在各种任务中表现良好。
RL 的规模达到了空前的巨大程度。所以,要将其扩展到 2 万亿参数模型的话,就需要对底层的 RL 基础设施进行改造。
Meta 对 MoE 并行化的设计进行了优化,以此来提高速度,进而实现了更快的迭代。该团队研发了一个完全异步的在线 RL 训练框架,提升了灵活性。现有的分布式训练框架会牺牲计算内存,将所有模型堆叠在内存中,而其新的基础设施能够灵活地把不同的模型分配到单独的 GPU 上,依据计算速度在多个模型间平衡资源。与前几代相比,这项创新使训练效率提高了约10倍。
结语:开源多种保护措施,改进消除偏见能力
Meta 表示其目标在于开发最为有帮助且实用的模型,与此同时,还要防范和缓解最为严重的风险。Meta 依据《开发人员使用指南:AI 保护》中所概述的最佳实践,构建了 Llama 4,这样一来,开发人员就能够为其基于 Llama 的应用程序创建出有用、安全并且适应性强的体验。
Meta 在预训练时,会将数据过滤与其他数据缓解措施结合起来以保护模型;而在进行后训练时,会应用一系列技术,确保模型符合对用户和开发者有益的政策,并且在每个阶段都会提供适当级别的安全数据。
在系统层面,Meta 开源了一些保护措施。这些保护措施能够帮助识别和防范潜在的有害输入与输出。同时,这些工具(如 Llama Guard、Prompt Guard、CyberSecEval)既可以集成到 Llama 模型中,也可以与其他第三方工具进行集成。
Meta 以一种可控且可重复的方式,对各种不同场景和用例中的模型展开系统测试,并且把产生的数据整合到经过训练后的结果里。同时,该团队借助自动和手动测试,针对一系列主题的对抗性动态探测来对模型进行压力测试,在理解以及评估潜在模型风险方面取得了一定的进展。
Meta 会持续提升 Llama 的响应能力,以此来消除 AI 模型的偏见,让它既能回答问题,又能对各种不同观点做出回应且不做评判,还不会偏袒某些观点。改进之后,Llama 4 的性能比 Llama 3 要明显更优,并且能与 Grok 相提并论。
Meta 致力于使模型能够以人类般的速度进行回复,并且能够以个性化的方式做出回复。Llama 4 经过了优化,以满足这些需求。
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://www.mjgaz.cn/fenxiang/275400.html