模型简介
模型特点
模型能力
使用案例
🚀 Llama 4模型介绍
Llama 4系列模型是原生多模态AI模型,支持文本和多模态交互体验。这些模型采用混合专家架构,在文本和图像理解方面表现卓越,开启了Llama生态系统的新纪元。本次发布了Llama 4 Scout和Llama 4 Maverick两款高效模型,参数均为170亿,前者有16个专家,后者有128个专家。
🚀 快速开始
安装依赖
请确保你已安装transformers v4.51.0
,若未安装,可使用以下命令进行升级:
pip install -U transformers
代码示例
from transformers import AutoTokenizer, Llama4ForConditionalGeneration
import torch
model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8"
tokenizer = AutoTokenizer.from_pretrained(model_id)
messages = [
{"role": "user", "content": "Who are you?"},
]
inputs = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt", return_dict=True)
model = Llama4ForConditionalGeneration.from_pretrained(
model_id,
tp_plan="auto",
torch_dtype="auto",
)
outputs = model.generate(**inputs.to(model.device), max_new_tokens=100)
outputs = tokenizer.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])
print(outputs[0])
✨ 主要特性
- 多模态体验:支持文本和图像输入,输出多语言文本和代码。
- 混合专家架构:采用MoE架构,在文本和图像理解方面表现出色。
- 多语言支持:支持12种语言,预训练包含200种语言。
- 广泛的应用场景:适用于商业和研究,可用于聊天、视觉推理、自然语言生成等任务。
📦 模型信息
模型开发者
Meta
模型架构
Llama 4模型是自回归语言模型,采用混合专家(MoE)架构,并结合早期融合实现原生多模态。
模型参数
模型名称 | 训练数据 | 参数 | 输入模态 | 输出模态 | 上下文长度 | 令牌数量 | 知识截止日期 |
---|---|---|---|---|---|---|---|
Llama 4 Scout (17Bx16E) | 公开可用数据、授权数据以及Meta产品和服务中的信息,包括Instagram和Facebook的公开帖子以及用户与Meta AI的交互。更多信息请参考隐私中心。 | 激活参数:170亿 总参数:1090亿 |
多语言文本和图像 | 多语言文本和代码 | 10M | ~40T | 2024年8月 |
Llama 4 Maverick (17Bx128E) | 激活参数:170亿 总参数:4000亿 |
多语言文本和图像 | 多语言文本和代码 | 1M | ~22T | 2024年8月 |
支持语言
阿拉伯语、英语、法语、德语、印地语、印尼语、意大利语、葡萄牙语、西班牙语、他加禄语、泰语和越南语。
模型发布日期
2025年4月5日
模型状态
这是一个基于离线数据集训练的静态模型。随着我们根据社区反馈改进模型性能,未来可能会发布调优后的版本。
许可证
自定义商业许可证,即Llama 4社区许可证协议,详情请见:https://github.com/meta-llama/llama-models/blob/main/models/llama4/LICENSE
反馈渠道
关于模型的反馈或评论说明,请参考Llama README。如需了解更多关于生成参数和在应用中使用Llama 4的技术信息,请访问此处。
💻 使用示例
基础用法
from transformers import AutoTokenizer, Llama4ForConditionalGeneration
import torch
model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8"
tokenizer = AutoTokenizer.from_pretrained(model_id)
messages = [
{"role": "user", "content": "Who are you?"},
]
inputs = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt", return_dict=True)
model = Llama4ForConditionalGeneration.from_pretrained(
model_id,
tp_plan="auto",
torch_dtype="auto",
)
outputs = model.generate(**inputs.to(model.device), max_new_tokens=100)
outputs = tokenizer.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])
print(outputs[0])
📚 详细文档
预期用途
预期用例
- 商业和研究:Llama 4适用于多种语言的商业和研究用途。
- 指令调优模型:适用于类似助手的聊天和视觉推理任务。
- 预训练模型:可用于自然语言生成。
- 视觉任务:优化了视觉识别、图像推理、图像描述和回答关于图像的一般性问题。
- 模型改进:支持利用其模型输出改进其他模型,包括合成数据生成和蒸馏。
超出范围的使用
- 违法违规使用:任何违反适用法律法规(包括贸易合规法律)的使用方式。
- 违反政策使用:任何违反可接受使用政策和Llama 4社区许可证的使用方式。
- 超出支持范围的使用:使用超出本模型卡明确支持的语言或功能。
注意事项
- 语言支持:Llama 4在比12种支持语言更广泛的语言集合上进行了训练(预训练包括200种语言)。开发者可以在遵守Llama 4社区许可证和可接受使用政策的前提下,对Llama 4模型进行微调以支持更多语言。开发者需确保以安全和负责任的方式使用Llama 4处理其他语言。
- 图像理解:Llama 4在图像理解方面最多测试了5张输入图像。如果需要利用超出此范围的图像理解能力,开发者有责任确保其部署能够降低风险,并针对特定应用进行额外的测试和调优。
硬件和软件
训练因素
我们使用自定义训练库、Meta定制的GPU集群和生产基础设施进行预训练。微调、量化、标注和评估也在生产基础设施上进行。
训练能源使用
模型预训练在H100 - 80GB(TDP为700W)类型的硬件上累计使用了738万 GPU小时的计算资源。训练时间是每个模型训练所需的总GPU时间,功耗是所用每个GPU设备的峰值功率容量,并根据电源使用效率进行了调整。
训练温室气体排放
训练的估计总基于位置的温室气体排放量为1999吨 CO2eq。自2020年以来,Meta在其全球运营中保持了净零温室气体排放,并以清洁能源和可再生能源匹配了其100%的电力使用;因此,训练的总基于市场的温室气体排放量为0吨CO2eq。
模型名称 | 训练时间(GPU小时) | 训练功耗(W) | 基于位置的训练温室气体排放(吨CO2eq) | 基于市场的训练温室气体排放(吨CO2eq) |
---|---|---|---|---|
Llama 4 Scout | 500万 | 700 | 1354 | 0 |
Llama 4 Maverick | 238万 | 700 | 645 | 0 |
总计 | 738万 | - | 1999 | 0 |
训练数据
概述
Llama 4 Scout在约40万亿个令牌的多模态数据上进行了预训练,Llama 4 Maverick在约22万亿个令牌的多模态数据上进行了预训练。这些数据来自公开可用数据、授权数据以及Meta产品和服务中的信息,包括Instagram和Facebook的公开帖子以及用户与Meta AI的交互。
数据新鲜度
预训练数据的截止日期为2024年8月。
基准测试
预训练模型
预训练模型 | |||||||
---|---|---|---|---|---|---|---|
类别 | 基准测试 | 样本数 | 指标 | Llama 3.1 70B | Llama 3.1 405B | Llama 4 Scout | Llama 4 Maverick |
推理与知识 | MMLU | 5 | macro_avg/acc_char | 79.3 | 85.2 | 79.6 | 85.5 |
MMLU - Pro | 5 | macro_avg/em | 53.8 | 61.6 | 58.2 | 62.9 | |
MATH | 4 | em_maj1@1 | 41.6 | 53.5 | 50.3 | 61.2 | |
代码 | MBPP | 3 | pass@1 | 66.4 | 74.4 | 67.8 | 77.6 |
多语言 | TydiQA | 1 | average/f1 | 29.9 | 34.3 | 31.5 | 31.7 |
图像 | ChartQA | 0 | relaxed_accuracy | 不支持多模态 | 83.4 | 85.3 | |
DocVQA | 0 | anls | 89.4 | 91.6 |
指令调优模型
指令调优模型 | |||||||
---|---|---|---|---|---|---|---|
类别 | 基准测试 | 样本数 | 指标 | Llama 3.3 70B | Llama 3.1 405B | Llama 4 Scout | Llama 4 Maverick |
图像推理 | MMMU | 0 | 准确率 | 不支持多模态 | 69.4 | 73.4 | |
MMMU Pro^ | 0 | 准确率 | 52.2 | 59.6 | |||
MathVista | 0 | 准确率 | 70.7 | 73.7 | |||
图像理解 | ChartQA | 0 | relaxed_accuracy | 88.8 | 90.0 | ||
DocVQA (测试) | 0 | anls | 94.4 | 94.4 | |||
编码 | LiveCodeBench (2024年10月1日 - 2025年2月1日) | 0 | pass@1 | 33.3 | 27.7 | 32.8 | 43.4 |
推理与知识 | MMLU Pro | 0 | macro_avg/acc | 68.9 | 73.4 | 74.3 | 80.5 |
GPQA Diamond | 0 | 准确率 | 50.5 | 49.0 | 57.2 | 69.8 | |
多语言 | MGSM | 0 | average/em | 91.1 | 91.6 | 90.6 | 92.3 |
长上下文 | MTOB (半本书) eng->kgv/kgv->eng | - | chrF | 上下文窗口为128K | 42.2/36.6 | 54.0/46.4 | |
MTOB (整本书) eng->kgv/kgv->eng | - | chrF | 39.7/36.3 | 50.8/46.7 |
^MMMU Pro的报告数据是标准任务和视觉任务的平均值
量化
Llama 4 Scout模型以BF16权重发布,但可以通过即时int4量化适配单个H100 GPU;Llama 4 Maverick模型以BF16和FP8量化权重发布。FP8量化权重可以在单个H100 DGX主机上运行,同时保持模型质量。我们还提供了即时int4量化的代码,以尽量减少性能下降。
安全保障
作为发布策略的一部分,我们采用了三管齐下的策略来管理风险:
- 赋能开发者:使开发者能够为其目标受众和Llama支持的用例部署有用、安全和灵活的体验。
- 保护开发者:保护开发者免受恶意用户的攻击,这些用户可能试图利用Llama的功能造成潜在危害。
- 保护社区:为社区提供保护,防止我们的模型被滥用。
Llama是一种基础技术,旨在用于各种用例。









