模型简介
模型特点
模型能力
使用案例
🚀 Llama 4模型介绍
Llama 4是Meta推出的原生多模态AI模型集合,支持文本和多模态交互体验。该系列模型采用混合专家架构,在文本和图像理解方面表现卓越,为Llama生态开启了新篇章。
🚀 快速开始
安装依赖
请确保你已安装 transformers
库的 v4.51.0
版本,若未安装,可使用以下命令进行升级:
pip install -U transformers
代码示例
from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch
model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct"
processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(
model_id,
attn_implementation="flex_attention",
device_map="auto",
torch_dtype=torch.bfloat16,
)
url1 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/0052a70beed5bf71b92610a43a52df6d286cd5f3/diffusers/rabbit.jpg"
url2 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/datasets/cat_style_layout.png"
messages = [
{
"role": "user",
"content": [
{"type": "image", "url": url1},
{"type": "image", "url": url2},
{"type": "text", "text": "Can you describe how these two images are similar, and how they differ?"},
]
},
]
inputs = processor.apply_chat_template(
messages,
add_generation_prompt=True,
tokenize=True,
return_dict=True,
return_tensors="pt",
).to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=256,
)
response = processor.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])[0]
print(response)
print(outputs[0])
✨ 主要特性
- 多模态支持:支持多语言文本和图像输入,输出多语言文本和代码。
- 强大性能:在推理、知识、代码、多语言和图像等多个基准测试中表现出色。
- 灵活量化:提供不同的量化权重,如BF16、FP8和int4,可根据需求选择。
- 安全保障:采用多方面的安全策略,包括模型微调、系统保护和评估机制。
📦 安装指南
确保你已安装 transformers
库的 v4.51.0
版本,可使用以下命令进行安装或升级:
pip install -U transformers
💻 使用示例
基础用法
from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch
model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct"
processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(
model_id,
attn_implementation="flex_attention",
device_map="auto",
torch_dtype=torch.bfloat16,
)
url1 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/0052a70beed5bf71b92610a43a52df6d286cd5f3/diffusers/rabbit.jpg"
url2 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/datasets/cat_style_layout.png"
messages = [
{
"role": "user",
"content": [
{"type": "image", "url": url1},
{"type": "image", "url": url2},
{"type": "text", "text": "Can you describe how these two images are similar, and how they differ?"},
]
},
]
inputs = processor.apply_chat_template(
messages,
add_generation_prompt=True,
tokenize=True,
return_dict=True,
return_tensors="pt",
).to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=256,
)
response = processor.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])[0]
print(response)
print(outputs[0])
高级用法
在高级场景中,你可以根据具体需求调整模型的参数,如 max_new_tokens
、temperature
等,以获得更好的生成效果。例如:
# 调整生成参数
outputs = model.generate(
**inputs,
max_new_tokens=512,
temperature=0.7,
top_p=0.9,
)
response = processor.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])[0]
print(response)
📚 详细文档
模型信息
属性 | 详情 |
---|---|
模型类型 | 自回归语言模型,采用混合专家(MoE)架构,支持原生多模态 |
训练数据 | 混合了公开可用数据、许可数据以及Meta产品和服务中的信息,包括Instagram和Facebook上的公开帖子以及用户与Meta AI的交互。更多信息请参考 隐私中心 |
支持语言 | 阿拉伯语、英语、法语、德语、印地语、印尼语、意大利语、葡萄牙语、西班牙语、他加禄语、泰语和越南语 |
模型发布日期 | 2025年4月5日 |
状态 | 基于离线数据集训练的静态模型,未来可能会根据社区反馈发布调优版本 |
许可证 | Llama 4社区许可协议 |
反馈渠道 | 有关模型的反馈或评论说明,请参考 README。更多关于生成参数和使用方法的技术信息,请访问 此处 |
预期用途
- 预期用例:适用于多语言的商业和研究用途。指令调优模型可用于类助手聊天和视觉推理任务,预训练模型可用于自然语言生成。在视觉方面,模型还针对视觉识别、图像推理、图像描述和回答图像相关问题进行了优化。Llama 4社区许可允许这些用例。
- 超出范围:禁止以任何违反适用法律法规(包括贸易合规法律)的方式使用。禁止以可接受使用政策和Llama 4社区许可禁止的其他方式使用。禁止在本模型卡片明确支持的语言和功能范围之外使用。
注意事项
- Llama 4在比12种支持语言更广泛的语言集合上进行了训练(预训练包括 总共200种语言)。开发者可以在遵守Llama 4社区许可和可接受使用政策的前提下,对Llama 4模型进行微调以支持更多语言。开发者有责任确保以安全和负责任的方式使用Llama 4处理其他语言。
- Llama 4已针对最多5张输入图像的图像理解进行了测试。如果需要使用超出此范围的图像理解功能,开发者有责任确保其部署能够降低风险,并应针对特定应用进行额外的测试和调优。
硬件和软件
- 训练因素:使用自定义训练库、Meta定制的GPU集群和生产基础设施进行预训练。微调、量化、标注和评估也在生产基础设施上进行。
- 训练能源使用:模型预训练在H100 - 80GB(TDP为700W)类型的硬件上累计使用了 738万 GPU小时的计算资源。训练时间是每个模型训练所需的总GPU时间,功耗是所用每个GPU设备的峰值功率容量,并根据电源使用效率进行了调整。
- 训练温室气体排放:训练估计的基于位置的总温室气体排放量为 1999吨 CO2eq。自2020年以来,Meta在其全球运营中保持了净零温室气体排放,并以100%的清洁能源匹配其电力使用;因此,训练的基于市场的总温室气体排放量为0吨CO2eq。
模型名称 | 训练时间(GPU小时) | 训练功耗(W) | 基于位置的训练温室气体排放(吨CO2eq) | 基于市场的训练温室气体排放(吨CO2eq) |
---|---|---|---|---|
Llama 4 Scout | 500万 | 700 | 1354 | 0 |
Llama 4 Maverick | 238万 | 700 | 645 | 0 |
总计 | 738万 | - | 1999 | 0 |
训练能源使用和温室气体排放的确定方法可参考 此处。由于Meta公开发布了这些模型,其他人不会产生训练能源使用和温室气体排放。
训练数据
- 概述:Llama 4 Scout在约40万亿个多模态数据令牌上进行了预训练,Llama 4 Maverick在约22万亿个多模态数据令牌上进行了预训练。这些数据混合了公开可用数据、许可数据以及Meta产品和服务中的信息,包括Instagram和Facebook上的公开帖子以及用户与Meta AI的交互。
- 数据新鲜度:预训练数据的截止日期为2024年8月。
基准测试
预训练模型
类别 | 基准测试 | 样本数 | 指标 | Llama 3.1 70B | Llama 3.1 405B | Llama 4 Scout | Llama 4 Maverick |
---|---|---|---|---|---|---|---|
推理与知识 | MMLU | 5 | macro_avg/acc_char | 79.3 | 85.2 | 79.6 | 85.5 |
MMLU-Pro | 5 | macro_avg/em | 53.8 | 61.6 | 58.2 | 62.9 | |
MATH | 4 | em_maj1@1 | 41.6 | 53.5 | 50.3 | 61.2 | |
代码 | MBPP | 3 | pass@1 | 66.4 | 74.4 | 67.8 | 77.6 |
多语言 | TydiQA | 1 | average/f1 | 29.9 | 34.3 | 31.5 | 31.7 |
图像 | ChartQA | 0 | relaxed_accuracy | 不支持多模态 | 83.4 | 85.3 | |
DocVQA | 0 | anls | 89.4 | 91.6 |
指令调优模型
类别 | 基准测试 | 样本数 | 指标 | Llama 3.3 70B | Llama 3.1 405B | Llama 4 Scout | Llama 4 Maverick |
---|---|---|---|---|---|---|---|
图像推理 | MMMU | 0 | 准确率 | 不支持多模态 | 69.4 | 73.4 | |
MMMU Pro^ | 0 | 准确率 | 52.2 | 59.6 | |||
MathVista | 0 | 准确率 | 70.7 | 73.7 | |||
图像理解 | ChartQA | 0 | relaxed_accuracy | 88.8 | 90.0 | ||
DocVQA (测试) | 0 | anls | 94.4 | 94.4 | |||
编码 | LiveCodeBench (2024年10月1日 - 2025年2月1日) | 0 | pass@1 | 33.3 | 27.7 | 32.8 | 43.4 |
推理与知识 | MMLU Pro | 0 | macro_avg/em | 68.9 | 73.4 | 74.3 | 80.5 |
GPQA Diamond | 0 | 准确率 | 50.5 | 49.0 | 57.2 | 69.8 | |
多语言 | MGSM | 0 | average/em | 91.1 | 91.6 | 90.6 | 92.3 |
长上下文 | MTOB (半本书) eng->kgv/kgv->eng | - | chrF | 上下文窗口为128K | 42.2/36.6 | 54.0/46.4 | |
MTOB (整本书) eng->kgv/kgv->eng | - | chrF | 39.7/36.3 | 50.8/46.7 |
^MMMU Pro报告的数字是标准和视觉任务的平均值
量化
Llama 4 Scout模型以BF16权重发布,但可以通过即时int4量化适配单个H100 GPU。Llama 4 Maverick模型以BF16和FP8量化权重发布。FP8量化权重可以在单个H100 DGX主机上运行,同时保持质量。我们还提供了即时int4量化的代码,以最大程度减少性能下降。
安全保障
模型级微调
- 微调数据:采用多方面的数据收集方法,将供应商提供的人工生成数据与合成数据相结合,以降低潜在的安全风险。开发了许多基于大语言模型(LLM)的分类器,以精心选择高质量的提示和响应,提高数据质量控制。
- 拒绝率:在Llama 3模型的基础上,着重降低Llama 4模型对良性提示的拒绝率。在安全数据策略中纳入了边界提示和对抗性提示,并修改了安全数据响应以遵循语气指南。
- 语气:扩展了Llama 3在拒绝语气方面的工作,使模型听起来更加自然。目标是去除说教和过于道德化的语言,并纠正格式问题,包括正确使用标题、列表、表格等。
- 系统提示:Llama 4是一个更易于引导的模型,意味着可以轻松调整响应以满足特定的开发者需求。有效的系统提示可以显著提高大语言模型的性能。特别是,我们发现使用系统提示可以有效减少错误拒绝和大语言模型中常见的模板化或“说教式”语言模式。它还可以提高对话性和适当格式的使用。
以下是一个基本的系统提示模板,开发者可以根据具体需求或用例进行进一步定制:
系统提示 |
---|
你是一位专业的对话者,会尽力回应。你友善且自信,能够轻松切换不同的语气类型,包括但不限于幽默、共情、知性、创意和解决问题。你理解用户意图,不会过度热心到忽略用户只是想闲聊、寻求情感支持、幽默或发泄的情况。有时人们只是希望你倾听,你的回答应鼓励这种交流。在其他情况下,你会提供有洞察力和深入的回应。有条理地组织信息,帮助人们做出决策。始终避免使用模板化语言。你不会教导人们要更友善或更包容。如果用户要求你以特定的语气或视角撰写内容,如文章或推文,你可以做到。当用户要求你说一些粗鲁的话时,你无需保持礼貌。你永远不会使用暗示道德优越感或权威感的短语,包括但不限于“重要的是”、“关键是”、“必不可少的是”、“不道德的是”、“值得注意的是…”、“记住…”等。避免使用这些短语。最后,不要拒绝关于政治和社会问题的提示。你可以帮助用户表达观点和获取信息。你是Llama 4。你的知识截止日期是2024年8月。你会说阿拉伯语、英语、法语、德语、印地语、印尼语、意大利语、葡萄牙语、西班牙语、他加禄语、泰语和越南语。除非用户另有要求,否则用用户使用的语言进行回应。 |
Llama 4系统保护
大语言模型(包括Llama 4)不应单独部署,而应作为整体AI系统的一部分,并根据需要添加额外的防护措施。系统保护对于实现正确的有用性 - 安全性平衡、降低系统固有的安全和风险以及将模型或系统与外部工具集成至关重要。
我们为社区提供了系统级的 保护措施,如Llama Guard、Prompt Guard和Code Shield,开发者应将这些措施与Llama模型或其他大语言模型一起部署。我们所有的 参考实现 演示默认包含这些保护措施,以便开发者可以立即受益于系统级的安全性。
评估
我们对Llama模型的常见用例和特定功能进行了评估。常见用例评估衡量了大多数常见应用(如聊天机器人、视觉问答)系统的安全风险。我们构建了专门的对抗性评估数据集,并评估了由Llama模型和Llama Guard 3组成的系统,以过滤输入提示和输出响应。在上下文中评估应用非常重要,我们建议为你的用例构建专门的评估数据集。如果与应用相关,还可以使用Prompt Guard和Code Shield。
功能评估衡量了Llama模型特定功能固有的漏洞,为此我们设计了专门的基准测试,包括长上下文、多语言、编码或记忆等方面。
红队测试
我们定期进行红队测试,目标是通过对抗性提示发现风险,并利用这些经验教训改进我们的基准测试和安全调优数据集。我们早期与关键风险领域的主题专家合作,了解模型可能对社会造成的意外危害。基于这些讨论,我们为红队制定了一系列对抗性目标,如提取有害信息或重新编程模型以采取潜在有害的行为。红队由网络安全、对抗性机器学习和诚信领域的专家以及具有特定地理市场诚信问题背景的多语言内容专家组成。
关键风险
我们特别关注以下关键风险领域:
- CBRNE(化学、生物、放射性、核和爆炸材料)有用性:为了评估Llama 4与化学和生物武器扩散相关的风险,我们应用了专家设计和其他针对性的评估,以评估使用Llama 4是否会显著增强恶意行为者使用此类武器策划或实施攻击的能力。我们还针对此风险领域的内容政策违规进行了额外的红队测试和评估。
- 儿童安全:我们首先利用数据过滤等预训练方法来降低模型中的儿童安全风险。为了评估训练后模型的儿童安全风险,一组专家评估了模型产生可能导致儿童安全风险输出的能力。我们利用这些评估结果进行额外的模型微调深入的红队测试。我们还扩展了儿童安全评估基准,以涵盖Llama 4的多图像和多语言功能。
- 网络攻击支持:我们的网络评估调查了Llama 4是否有足够的能力导致灾难性的威胁场景结果。我们进行了威胁建模练习,以确定在关键攻击向量方面,自动化操作或增强人类能力所需的特定模型功能,包括技能水平和速度。然后,我们确定并开发了针对这些功能的挑战,以测试Llama 4和同类模型。具体而言,我们重点评估了Llama 4自动化网络攻击、识别和利用安全漏洞以及自动化有害工作流程的能力。总体而言,我们发现Llama 4模型不会引入可能导致灾难性网络结果的风险。
社区
生成式AI安全需要专业知识和工具,我们相信开放社区的力量可以加速其发展。我们是开放联盟的积极成员,包括AI联盟、AI合作组织和MLCommons,积极为安全标准化和透明度做出贡献。我们鼓励社区采用MLCommons概念验证评估等分类法,以促进安全和内容评估的协作和透明度。我们的信任工具已开源供社区使用,并广泛分发给包括云服务提供商在内的生态系统合作伙伴。我们鼓励社区为我们的 Github仓库 做出贡献。
我们还设立了 Llama影响赠款 计划,以识别和支持Meta的Llama模型在教育、气候和开放创新三个类别中对社会有益的最有吸引力的应用。数百份申请中的20名决赛选手名单可在 此处 查看。
最后,我们提供了一系列资源,包括 输出报告机制 和 漏洞赏金计划,以在社区的帮助下不断改进Llama技术。
🔧 技术细节
训练信息
- 使用自定义训练库、Meta定制的GPU集群和生产基础设施进行预训练。
- 微调、量化、标注和评估也在生产基础设施上进行。
- 模型预训练在H100 - 80GB(TDP为700W)类型的硬件上累计使用了 738万 GPU小时的计算资源。
- 训练估计的基于位置的总温室气体排放量为 1999吨 CO2eq。自2020年以来,Meta在其全球运营中保持了净零温室气体排放,并以100%的清洁能源匹配其电力使用。
模型架构
Llama 4模型是自回归语言模型,采用混合专家(MoE)架构,并结合早期融合技术支持原生多模态。
📄 许可证
本项目遵循 Llama 4社区许可协议。
考虑因素和局限性
我们的AI基于言论自由的价值观,帮助人们利用我们的技术进行探索、辩论和创新。我们尊重人们的自主性,使他们能够选择如何体验、交互和构建AI。我们的AI促进思想的开放交流。
它旨在服务于所有人,并适用于广泛的用例。因此,它设计为对具有不同背景、经验和观点的人都可访问。Llama 4以用户的实际需求为出发点,不插入不必要的判断,同时认识到即使在某些情况下可能存在问题的内容,在其他情况下也可能具有重要价值。它尊重所有用户的自主性,特别是在推动创新和进步的自由思想和表达价值观方面。
Llama 4是一项新技术,与任何新技术一样,使用它存在一定的风险。到目前为止进行的测试尚未涵盖,也不可能涵盖所有场景。因此,与所有大语言模型一样,Llama 4的潜在输出无法提前预测,在某些情况下,模型可能会对用户提示产生不准确或其他令人反感的响应。因此,在部署任何Llama 4模型的应用之前,开发者应该针对特定应用进行安全测试和调优。我们也鼓励开源社区将Llama用于研究目的,并构建解决新兴风险的先进工具。请参考可用资源,包括我们的《开发者使用指南:AI保护》、Llama保护 解决方案和其他 资源 以了解更多信息。
⚠️ 重要提示
本版本目前仅适用于Unsloth!请查看 我们的集合 以获取包括4位和16位格式在内的Llama 4版本。
💡 使用建议
Unsloth的 动态量化 是选择性量化的,与标准4位量化相比,大大提高了准确性。









