模型简介
模型特点
模型能力
使用案例
🚀 Llama 4模型 - 多模态AI新体验
Llama 4系列模型是原生多模态AI模型,能带来文本和多模态交互体验。它们采用混合专家架构,在文本和图像理解方面表现卓越,开启了Llama生态系统的新纪元。
🚀 快速开始
安装依赖
请确保你已安装transformers
库的v4.51.0
版本,若未安装,可使用以下命令进行升级:
pip install -U transformers
使用示例
from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch
model_id = "meta-llama/Llama-4-Scout-17B-16E-Instruct"
processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(
model_id,
attn_implementation="flex_attention",
device_map="auto",
torch_dtype=torch.bfloat16,
)
url1 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/0052a70beed5bf71b92610a43a52df6d286cd5f3/diffusers/rabbit.jpg"
url2 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/datasets/cat_style_layout.png"
messages = [
{
"role": "user",
"content": [
{"type": "image", "url": url1},
{"type": "image", "url": url2},
{"type": "text", "text": "Can you describe how these two images are similar, and how they differ?"},
]
},
]
inputs = processor.apply_chat_template(
messages,
add_generation_prompt=True,
tokenize=True,
return_dict=True,
return_tensors="pt",
).to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=256,
)
response = processor.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])[0]
print(response)
print(outputs[0])
✨ 主要特性
- 多模态能力:原生支持文本和图像等多模态输入输出,可用于图像理解、视觉推理等任务。
- 混合专家架构:采用MoE架构,在文本和图像理解方面表现出色。
- 高效模型:推出了Llama 4 Scout和Llama 4 Maverick两款170亿参数的高效模型。
📦 模型信息
模型开发者
Meta
模型架构
Llama 4模型是自回归语言模型,采用混合专家(MoE)架构,并结合早期融合实现原生多模态。
模型参数详情
模型名称 | 训练数据 | 参数数量 | 输入模态 | 输出模态 | 上下文长度 | 令牌数量 | 知识截止日期 |
---|---|---|---|---|---|---|---|
Llama 4 Scout (17Bx16E) | 混合了公开可用数据、授权数据以及Meta产品和服务中的信息,包括Instagram和Facebook上的公开帖子以及用户与Meta AI的交互。更多信息可查看隐私中心。 | 激活参数:170亿 总参数:1090亿 |
多语言文本和图像 | 多语言文本和代码 | 10M | ~40T | 2024年8月 |
Llama 4 Maverick (17Bx128E) | 激活参数:170亿 总参数:4000亿 |
多语言文本和图像 | 多语言文本和代码 | 1M | ~22T | 2024年8月 |
支持语言
阿拉伯语、英语、法语、德语、印地语、印尼语、意大利语、葡萄牙语、西班牙语、塔加洛语、泰语和越南语。
模型发布日期
2025年4月5日
模型状态
这是一个基于离线数据集训练的静态模型。随着收集社区反馈并改进模型性能,未来可能会发布调优后的版本。
许可证
自定义商业许可证,即Llama 4社区许可协议,详情可查看:https://github.com/meta-llama/llama-models/blob/main/models/llama4/LICENSE
反馈渠道
有关模型的反馈或建议,可查看Llama的README。如需了解更多关于生成参数和在应用中使用Llama 4的技术信息,请访问此处。
📚 详细文档
预期用途
预期用例
- 商业和研究:支持多语言的商业和研究应用。
- 对话和推理:指令调优模型适用于类似助手的聊天和视觉推理任务。
- 自然语言生成:预训练模型可用于自然语言生成。
- 视觉任务:适用于视觉识别、图像推理、图像描述和回答图像相关问题。
- 模型改进:支持利用其输出改进其他模型,包括合成数据生成和蒸馏。
非预期用途
- 违反适用法律法规(包括贸易合规法律)的使用。
- 违反可接受使用政策和Llama 4社区许可协议的使用。
- 使用超出本模型卡明确支持的语言或功能。
注意事项
- Llama 4在超过12种支持语言的更广泛语言集上进行了训练(预训练包括200种语言)。开发者可在遵守Llama 4社区许可协议和可接受使用政策的前提下,对模型进行微调以支持更多语言,并确保使用方式安全可靠。
- Llama 4在图像理解方面最多测试了5张输入图像。若需使用更多图像理解功能,开发者需自行评估风险,并针对具体应用进行额外测试和调优。
🔧 技术细节
训练因素
- 预训练使用了自定义训练库、Meta定制的GPU集群和生产基础设施。
- 微调、量化、标注和评估也在生产基础设施上进行。
训练能耗
模型预训练在H100 - 80GB(TDP为700W)类型的硬件上累计使用了738万 GPU小时的计算资源。训练时间是每个模型训练所需的总GPU时间,功耗是每个GPU设备的峰值功率容量,并根据功率使用效率进行了调整。
训练温室气体排放
- 基于位置的估计总温室气体排放量为1999吨 CO2eq。
- 自2020年以来,Meta在全球运营中保持净零温室气体排放,并使用100%的清洁和可再生能源匹配其电力消耗,因此基于市场的总温室气体排放量为0吨CO2eq。
模型名称 | 训练时间(GPU小时) | 训练功耗(W) | 基于位置的训练温室气体排放(吨CO2eq) | 基于市场的训练温室气体排放(吨CO2eq) |
---|---|---|---|---|
Llama 4 Scout | 500万 | 700 | 1354 | 0 |
Llama 4 Maverick | 238万 | 700 | 645 | 0 |
总计 | 738万 | - | 1999 | 0 |
能耗和排放计算方法
可查看此处了解训练能耗和温室气体排放的计算方法。由于Meta公开发布了这些模型,其他用户不会产生训练能耗和温室气体排放。
基准测试
预训练模型
类别 | 基准测试 | 样本数量 | 指标 | Llama 3.1 70B | Llama 3.1 405B | Llama 4 Scout | Llama 4 Maverick |
---|---|---|---|---|---|---|---|
推理与知识 | MMLU | 5 | macro_avg/acc_char | 79.3 | 85.2 | 79.6 | 85.5 |
MMLU - Pro | 5 | macro_avg/em | 53.8 | 61.6 | 58.2 | 62.9 | |
MATH | 4 | em_maj1@1 | 41.6 | 53.5 | 50.3 | 61.2 | |
代码 | MBPP | 3 | pass@1 | 66.4 | 74.4 | 67.8 | 77.6 |
多语言 | TydiQA | 1 | average/f1 | 29.9 | 34.3 | 31.5 | 31.7 |
图像 | ChartQA | 0 | relaxed_accuracy | 不支持多模态 | 83.4 | 85.3 | |
DocVQA | 0 | anls | 89.4 | 91.6 |
指令调优模型
类别 | 基准测试 | 样本数量 | 指标 | Llama 3.3 70B | Llama 3.1 405B | Llama 4 Scout | Llama 4 Maverick |
---|---|---|---|---|---|---|---|
图像推理 | MMMU | 0 | 准确率 | 不支持多模态 | 69.4 | 73.4 | |
MMMU Pro^ | 0 | 准确率 | 52.2 | 59.6 | |||
MathVista | 0 | 准确率 | 70.7 | 73.7 | |||
图像理解 | ChartQA | 0 | relaxed_accuracy | 88.8 | 90.0 | ||
DocVQA (测试) | 0 | anls | 94.4 | 94.4 | |||
编码 | LiveCodeBench (2024年10月1日 - 2025年2月1日) | 0 | pass@1 | 33.3 | 27.7 | 32.8 | 43.4 |
推理与知识 | MMLU Pro | 0 | macro_avg/acc | 68.9 | 73.4 | 74.3 | 80.5 |
GPQA Diamond | 0 | 准确率 | 50.5 | 49.0 | 57.2 | 69.8 | |
多语言 | MGSM | 0 | average/em | 91.1 | 91.6 | 90.6 | 92.3 |
长上下文 | MTOB (半本书) eng->kgv/kgv->eng | - | chrF | 上下文窗口为128K | 42.2/36.6 | 54.0/46.4 | |
MTOB (整本书) eng->kgv/kgv->eng | - | chrF | 39.7/36.3 | 50.8/46.7 |
^MMMU Pro的报告数据是标准任务和视觉任务的平均值
量化
- Llama 4 Scout模型以BF16权重发布,可通过即时int4量化适配单个H100 GPU。
- Llama 4 Maverick模型同时发布了BF16和FP8量化权重,FP8量化权重可在单个H100 DGX主机上运行并保持质量。同时,我们提供了即时int4量化代码,可最大程度减少性能损失。
📄 许可证
本模型使用Llama 4社区许可协议,点击“我接受”或使用、分发Llama材料的任何部分即表示同意受此协议约束。协议详情如下:
LLAMA 4社区许可协议
1. 许可权利和再分发
- 权利授予:您被授予非排他性、全球性、不可转让且免版税的有限许可,可在Llama材料所体现的Meta知识产权或其他权利下,使用、复制、分发、拷贝、创作衍生作品并对Llama材料进行修改。
- 再分发和使用:
- 若您分发或提供Llama材料(或其任何衍生作品),或包含这些材料的产品或服务(包括其他AI模型),您应(A)随任何此类Llama材料提供本协议的副本;(B)在相关网站、用户界面、博客文章、关于页面或产品文档中显著显示“Built with Llama”。若您使用Llama材料或其任何输出结果来创建、训练、微调或以其他方式改进AI模型并进行分发或提供,您还应在任何此类AI模型名称前加上“Llama”。
- 若您作为集成最终用户产品的一部分从被许可方处接收Llama材料或其任何衍生作品,则本协议第2条不适用于您。
- 您必须在分发的所有Llama材料副本中保留以下归属声明,该声明应包含在作为此类副本一部分分发的“Notice”文本文件中:“Llama 4 is licensed under the Llama 4 Community License, Copyright © Meta Platforms, Inc. All Rights Reserved.”
- 您对Llama材料的使用必须遵守适用法律法规(包括贸易合规法律法规),并遵守Llama材料的可接受使用政策(可在https://www.llama.com/llama4/use-policy查看),该政策特此并入本协议。
2. 额外商业条款
若在Llama 4版本发布日期,被许可方或其关联方提供的产品或服务在前一个日历月的月活跃用户数超过7亿,则您必须向Meta申请许可,Meta可自行决定是否授予,在Meta明确授予您此类权利之前,您无权行使本协议下的任何权利。
3. 保修免责声明
除非适用法律要求,Llama材料及其任何输出和结果按“现状”提供,不提供任何形式的保证,Meta明确排除所有明示和暗示的保证,包括但不限于所有权、不侵权、适销性或特定用途适用性的保证。您独自负责确定使用或再分发Llama材料的适当性,并承担使用Llama材料及其任何输出和结果相关的所有风险。
4. 责任限制
在任何责任理论下,无论是合同、侵权、疏忽、产品责任还是其他,Meta或其关联方均不对因本协议产生的任何利润损失或任何间接、特殊、后果性、偶发性、惩戒性或惩罚性损害承担责任,即使Meta或其关联方已被告知此类损害的可能性。
5. 知识产权
- 商标许可:本协议未授予商标许可,关于Llama材料,除非为合理和惯常描述及再分发Llama材料所需,或如本节5(a)所述,Meta和被许可方均不得使用对方或其关联方拥有或关联的任何名称或标记。Meta特此授予您仅为遵守第1.b.i条最后一句所需而使用“Llama”(“标记”)的许可。您应遵守Meta的品牌指南(目前可在https://about.meta.com/brand/resources/meta/company-brand/查看)。您使用标记所产生的所有商誉均归Meta所有。
- 衍生作品所有权:在Meta对Llama材料及其衍生作品拥有所有权的前提下,就您创作的Llama材料的任何衍生作品和修改而言,您是并将继续是此类衍生作品和修改的所有者。
- 侵权诉讼后果:若您对Meta或任何实体提起诉讼或其他程序(包括诉讼中的交叉索赔或反诉),声称Llama材料、Llama 4的输出或结果或其任何部分构成侵犯您拥有或可许可的知识产权或其他权利,则本协议授予您的所有许可自此类诉讼或索赔提起之日起终止。您应赔偿并使Meta免受因您使用或分发Llama材料而产生或与之相关的任何第三方索赔。
6. 期限和终止
本协议自您接受本协议或访问Llama材料时生效,并将持续有效,直至根据本协议的条款和条件终止。若您违反本协议的任何条款和条件,Meta可终止本协议。协议终止后,您应删除并停止使用Llama材料。第3、4和7条在协议终止后仍然有效。
7. 适用法律和管辖权
本协议受加利福尼亚州法律管辖和解释,不考虑法律选择原则,《联合国国际货物销售合同公约》不适用于本协议。加利福尼亚州的法院对因本协议产生的任何争议具有专属管辖权。









