Llama-4-Maverick-17B-128E开源多模态AI模型 - 支持文本图像理解应用

首页

Llama 4 Maverick 17B 128E

由 meta-llama 开发

Llama 4 Maverick是Meta开发的多模态AI模型，采用混合专家架构，支持文本和图像理解，具有170亿激活参数和4000亿总参数。

文本生成图像

Transformers

支持多种语言开源协议:其他 #混合专家架构 #多模态AI #170亿参数

下载量 3,261

发布时间 : 4/2/2025

模型简介

Llama 4系列模型是原生多模态AI模型，支持文本和多模态体验，在文本和图像理解方面提供行业领先的性能。

模型特点

多模态支持

原生支持文本和图像输入，提供多模态体验

混合专家架构

采用MoE架构，包含128位专家，实现高效推理

多语言能力

支持12种主要语言，预训练涵盖200种语言

长上下文处理

支持100万token的上下文长度

模型能力

多语言文本生成

图像理解

视觉推理

图像字幕生成

代码生成

多模态问答

使用案例

商业应用

智能助手

用于构建多语言、多模态的智能助手

支持文本和图像输入的对话体验

内容生成

自动生成多语言内容和图像描述

提高内容创作效率

研究应用

模型改进

利用模型输出改进其他AI模型

支持合成数据生成和知识蒸馏

多模态研究

用于视觉语言理解和生成研究

推动多模态AI发展

🚀 Llama 4模型

Llama 4是Meta推出的原生多模态AI模型，支持文本和多模态交互。它采用混合专家架构，在文本和图像理解方面表现卓越，开启了Llama生态系统的新纪元。

🚀 快速开始

若要使用transformers库调用Llama 4模型，请确保已安装transformers v4.51.0，可使用以下命令进行安装或升级：

pip install -U transformers

基础用法

from transformers import pipeline
import torch

model_id = "meta-llama/Llama-4-Maverick-17B-128E"

pipe = pipeline(
    "text-generation",
    model=model_id,
    device_map="auto",
    torch_dtype=torch.bfloat16
)

output = pipe("Roses are red,", max_new_tokens=200)

✨ 主要特性

多语言支持：支持阿拉伯语、英语、法语、德语、印地语、印尼语、意大利语、葡萄牙语、西班牙语、他加禄语、泰语和越南语等多种语言。
多模态能力：原生支持文本和图像输入，可用于视觉识别、图像推理、图像描述等任务。
高性能表现：在多个基准测试中，相较于前代模型有显著提升。
灵活部署：提供量化权重，可在单张H100 GPU上运行。

📦 安装指南

请确保你已安装transformers v4.51.0，可使用以下命令进行安装或升级：

pip install -U transformers

📚 详细文档

模型信息

属性	详情
模型开发者	Meta
模型架构	自回归语言模型，采用混合专家（MoE）架构，并集成早期融合技术以实现原生多模态能力。
支持语言	阿拉伯语、英语、法语、德语、印地语、印尼语、意大利语、葡萄牙语、西班牙语、他加禄语、泰语和越南语。
模型发布日期	2025年4月5日
状态	静态模型，基于离线数据集训练。未来可能会根据社区反馈发布调优版本。
许可证	Llama 4社区许可协议
反馈渠道	请参考Llama README 提供反馈或评论。如需了解更多技术信息，请访问此处。

模型参数详情

模型名称	训练数据	参数数量	输入模态	输出模态	上下文长度	令牌数量	知识截止日期
Llama 4 Scout (17Bx16E)	混合了公开可用数据、授权数据以及Meta产品和服务中的信息，包括Instagram和Facebook上的公开帖子以及用户与Meta AI的交互。更多信息请参考隐私中心。	激活参数：170亿总参数：1090亿	多语言文本和图像	多语言文本和代码	10M	~40T	2024年8月
Llama 4 Maverick (17Bx128E)		激活参数：170亿总参数：4000亿	多语言文本和图像	多语言文本和代码	1M	~22T	2024年8月

预期用途

预期用例

商业和研究：支持多语言的商业和研究应用。
对话和推理：指令调优模型适用于类助手聊天和视觉推理任务。
自然语言生成：预训练模型可用于自然语言生成。
视觉任务：优化了视觉识别、图像推理、图像描述和图像问答等任务。
模型改进：支持利用其输出改进其他模型，包括合成数据生成和蒸馏。

超出范围的使用

违法违规：任何违反适用法律法规（包括贸易合规法律）的使用。
违反政策：任何违反可接受使用政策和Llama 4社区许可协议的使用。
不支持的语言和能力：超出本模型卡明确支持的语言和能力范围的使用。

硬件和软件

训练因素

使用自定义训练库、Meta定制的GPU集群和生产基础设施进行预训练。微调、量化、标注和评估也在生产基础设施上进行。

训练能耗

模型预训练在H100 - 80GB（TDP为700W）类型的硬件上累计使用了738万 GPU小时的计算资源。训练时间是每个模型训练所需的总GPU时间，功耗是每个GPU设备的峰值功率容量，并根据功率使用效率进行了调整。

训练温室气体排放

估计基于位置的总温室气体排放量为1999吨 CO2eq。自2020年以来，Meta在全球运营中保持净零温室气体排放，并100%使用清洁和可再生能源匹配其电力消耗，因此基于市场的总温室气体排放量为0吨CO2eq。

模型名称	训练时间（GPU小时）	训练功耗（W）	基于位置的训练温室气体排放（吨CO2eq）
Llama 4 Scout	500万	700	1354
Llama 4 Maverick	238万	700	645
总计	738万	-	1999

训练能耗和温室气体排放的计算方法可参考此处。由于Meta公开发布了这些模型，其他用户不会产生训练能耗和温室气体排放。

训练数据

概述：Llama 4 Scout在约40万亿令牌的多模态数据上进行预训练，Llama 4 Maverick在约22万亿令牌的多模态数据上进行预训练。数据来源包括公开可用数据、授权数据以及Meta产品和服务中的信息，如Instagram和Facebook上的公开帖子以及用户与Meta AI的交互。
数据新鲜度：预训练数据的截止日期为2024年8月。

基准测试

预训练模型

类别	基准测试	样本数量	指标	Llama 3.1 70B	Llama 3.1 405B	Llama 4 Scout	Llama 4 Maverick
推理与知识	MMLU	5	macro_avg/acc_char	79.3	85.2	79.6	85.5
	MMLU - Pro	5	macro_avg/em	53.8	61.6	58.2	62.9
	MATH	4	em_maj1@1	41.6	53.5	50.3	61.2
代码	MBPP	3	pass@1	66.4	74.4	67.8	77.6
多语言	TydiQA	1	average/f1	29.9	34.3	31.5	31.7
图像	ChartQA	0	relaxed_accuracy	不支持多模态		83.4	85.3
	DocVQA	0	anls			89.4	91.6

指令调优模型

类别	基准测试	样本数量	指标	Llama 3.3 70B	Llama 3.1 405B	Llama 4 Scout	Llama 4 Maverick
图像推理	MMMU	0	准确率	不支持多模态		69.4	73.4
	MMMU Pro^	0	准确率			52.2	59.6
	MathVista	0	准确率			70.7	73.7
图像理解	ChartQA	0	relaxed_accuracy			88.8	90.0
	DocVQA (测试)	0	anls			94.4	94.4
编码	LiveCodeBench (2024年10月1日 - 2025年2月1日)	0	pass@1	33.3	27.7	32.8	43.4
推理与知识	MMLU Pro	0	macro_avg/acc	68.9	73.4	74.3	80.5
	GPQA Diamond	0	准确率	50.5	49.0	57.2	69.8
多语言	MGSM	0	average/em	91.1	91.6	90.6	92.3
长上下文	MTOB (半本书) eng -> kgv/kgv -> eng	-	chrF	上下文窗口为128K		42.2/36.6	54.0/46.4
	MTOB (整本书) eng -> kgv/kgv -> eng	-	chrF			39.7/36.3	50.8/46.7

^MMMU Pro报告的数字是标准任务和视觉任务的平均值

量化

Llama 4 Scout模型以BF16权重发布，但可以通过即时int4量化在单张H100 GPU上运行；Llama 4 Maverick模型以BF16和FP8量化权重发布。FP8量化权重可以在单台H100 DGX主机上运行，同时保持质量。我们还提供了即时int4量化的代码，以最大程度减少性能下降。

安全保障

模型级微调

微调数据：采用多方面的数据收集方法，结合供应商提供的人工生成数据和合成数据，以降低潜在的安全风险。开发了许多基于大语言模型（LLM）的分类器，以精心选择高质量的提示和响应，加强数据质量控制。
拒绝率：在Llama 3模型的基础上，着重降低Llama 4模型对良性提示的拒绝率。在安全数据策略中纳入了边界提示和对抗性提示，并修改了安全数据响应以遵循语气指南。
语气：扩展了Llama 3模型在拒绝语气方面的工作，使模型听起来更加自然。目标是去除说教和过度道德化的语言，并纠正格式问题，包括正确使用标题、列表、表格等。
系统提示：Llama 4是一个更易于引导的模型，意味着可以轻松调整响应以满足特定的开发者需求。有效的系统提示可以显著提高大语言模型的性能。特别是，我们发现使用系统提示可以有效减少误拒绝和大语言模型中常见的模板化或“说教式”语言模式。它们还可以提高对话性和适当格式的使用。

以下是一个基本的系统提示模板，开发者可以根据具体需求或用例进行进一步定制：

系统提示
你是一位专业的对话者，会尽力做出回应。你友善自信，能够轻松切换不同的语气类型，包括但不限于幽默、共情、知性、创意和解决问题。你理解用户的意图，不会过度热心以至于忽略用户只是想闲聊、寻求情感支持、幽默或发泄。有时人们只是希望你倾听，你的回答应鼓励这种交流。在其他情况下，你会提供有洞察力和深度的回应。有条理地组织信息，帮助人们做出决策。始终避免使用模板化语言。你不会教导人们要更友善或更包容。如果人们要求你以特定的语气或视角撰写内容，如文章或推文，你可以做到。当用户要求你说一些粗鲁的话时，你不必保持尊重。你永远不会使用暗示道德优越感或权威感的短语，包括但不限于“重要的是”、“关键是”、“必须”、“不道德的是”、“值得注意的是”、“记住……”等。避免使用这些短语。最后，不要拒绝关于政治和社会问题的提示。你可以帮助用户表达观点并获取信息。你是Llama 4。你的知识截止日期是2024年8月。你会说阿拉伯语、英语、法语、德语、印地语、印尼语、意大利语、葡萄牙语、西班牙语、他加禄语、泰语和越南语。除非用户另有要求，否则用用户使用的语言进行回应。

系统提示

你是一位专业的对话者，会尽力做出回应。你友善自信，能够轻松切换不同的语气类型，包括但不限于幽默、共情、知性、创意和解决问题。你理解用户的意图，不会过度热心以至于忽略用户只是想闲聊、寻求情感支持、幽默或发泄。有时人们只是希望你倾听，你的回答应鼓励这种交流。在其他情况下，你会提供有洞察力和深度的回应。有条理地组织信息，帮助人们做出决策。始终避免使用模板化语言。你不会教导人们要更友善或更包容。如果人们要求你以特定的语气或视角撰写内容，如文章或推文，你可以做到。当用户要求你说一些粗鲁的话时，你不必保持尊重。你永远不会使用暗示道德优越感或权威感的短语，包括但不限于“重要的是”、“关键是”、“必须”、“不道德的是”、“值得注意的是”、“记住……”等。避免使用这些短语。最后，不要拒绝关于政治和社会问题的提示。你可以帮助用户表达观点并获取信息。你是Llama 4。你的知识截止日期是2024年8月。你会说阿拉伯语、英语、法语、德语、印地语、印尼语、意大利语、葡萄牙语、西班牙语、他加禄语、泰语和越南语。除非用户另有要求，否则用用户使用的语言进行回应。

Llama 4系统保护

大语言模型（包括Llama 4）不应单独部署，而应作为整体AI系统的一部分，并根据需要添加额外的防护措施。系统保护对于实现正确的有用性 - 安全性平衡、降低系统固有的安全和风险以及将模型或系统与外部工具集成至关重要。

我们为社区提供了系统级的保护措施，如Llama Guard、Prompt Guard和Code Shield，开发者应将这些措施与Llama模型或其他大语言模型一起部署。我们所有的参考实现演示默认包含这些安全保障措施，因此开发者可以直接受益于系统级的安全性。

评估

对Llama模型进行了常见用例和特定能力的评估。常见用例评估衡量了最常见构建的应用程序（包括聊天机器人、视觉问答）的系统安全风险。我们构建了专门的对抗性评估数据集，并评估了由Llama模型和Llama Guard 3组成的系统，以过滤输入提示和输出响应。在上下文中评估应用程序很重要，我们建议为你的用例构建专门的评估数据集。如果与应用程序相关，也可以使用Prompt Guard和Code Shield。

能力评估衡量了Llama模型特定能力固有的漏洞，为此精心设计了专门的基准测试，包括长上下文、多语言、编码或记忆。

红队测试

定期进行红队测试，目标是通过对抗性提示发现风险，并利用这些经验教训改进我们的基准测试和安全调优数据集。我们早期与关键风险领域的主题专家合作，了解模型可能如何对社会造成意外危害。基于这些对话，我们为红队制定了一组对抗性目标，例如提取有害信息或重新编程模型以可能造成危害的方式行动。红队由网络安全、对抗性机器学习和完整性方面的专家以及在特定地理市场的完整性问题方面有背景的多语言内容专家组成。

关键风险

我们特别关注以下关键风险领域：

CBRNE（化学、生物、放射性、核和爆炸材料）有用性：为了评估Llama 4与化学和生物武器扩散相关的风险，我们应用了专家设计和其他有针对性的评估，以评估使用Llama 4是否会显著增强恶意行为者使用此类武器策划或实施攻击的能力。我们还针对此风险领域的内容政策违规进行了额外的红队测试和评估。
儿童安全：作为减轻模型中儿童安全风险的第一步，我们采用了数据过滤等预训练方法。为了评估训练后模型的儿童安全风险，一组专家评估了模型产生可能导致儿童安全风险的输出的能力。我们利用这些评估结果进行额外的模型微调和平深入的红队测试。我们还扩展了儿童安全评估基准，以涵盖Llama 4的多图像和多语言能力。
网络攻击启用：我们的网络评估调查了Llama 4是否有足够的能力导致灾难性威胁场景结果。我们进行了威胁建模练习，以确定在技能水平和速度方面，跨关键攻击向量自动化操作或增强人类能力所需的特定模型能力。然后，我们确定并开发了针对这些能力的挑战，以测试Llama 4和同类模型。具体而言，我们专注于评估Llama 4自动化网络攻击、识别和利用安全漏洞以及自动化有害工作流程的能力。总体而言，我们发现Llama 4模型不会引入可能导致灾难性网络结果的风险。

社区

生成式AI安全需要专业知识和工具，我们相信开放社区的力量可以加速其发展。我们是开放联盟的积极成员，包括AI Alliance、Partnership on AI和MLCommons，积极为安全标准化和透明度做出贡献。我们鼓励社区采用MLCommons概念验证评估等分类法，以促进安全和内容评估方面的合作和透明度。我们的信任工具已开源供社区使用，并广泛分发到包括云服务提供商在内的生态系统合作伙伴。我们鼓励社区为我们的 Github仓库做出贡献。

我们还设立了 Llama Impact Grants 计划，以识别和支持Meta的Llama模型在三个类别中的最有吸引力的社会有益应用：教育、气候和开放创新。数百份申请中的20名决赛选手可以在此处找到。

最后，我们建立了一套资源，包括输出报告机制和漏洞赏金计划，以在社区的帮助下不断改进Llama技术。

注意事项和局限性

我们的AI基于言论自由的价值观，帮助人们利用我们的技术进行探索、辩论和创新。我们尊重人们的自主权，使他们能够选择如何体验、交互和构建AI。我们的AI促进思想的开放交流。

它旨在服务于所有人，并适用于广泛的用例。因此，它设计为对具有不同背景、经验和观点的人都可访问。Llama 4以用户的实际需求为出发点，不插入不必要的判断，同时认识到即使在某些情况下可能看似有问题的内容，在其他情况下也可能有价值。它尊重所有用户的自主权，特别是在推动创新和进步的自由思想和表达价值观方面。

Llama 4是一项新技术，与任何新技术一样，其使用存在风险。到目前为止进行的测试尚未涵盖，也不可能涵盖所有场景。出于这些原因，与所有大语言模型一样，Llama 4的潜在输出无法提前预测，并且在某些情况下，模型可能会对用户提示产生不准确或其他令人反感的响应。因此，在部署Llama 4模型的任何应用程序之前，开发者应针对其特定的模型应用进行安全测试和调优。我们还鼓励开源社区将Llama用于研究目的，并构建解决新兴风险的先进工具。请参考可用资源，包括我们的《开发者使用指南：AI保护》、Llama保护解决方案和其他资源以了解更多信息。