Llama 4 Maverick开源多模态AI模型 - 支持图文输入，输出多语言文本与代码

首页

Llama 4 Maverick 17B 128E Instruct FP8

由 chutesai 开发

Llama 4 Maverick是Meta推出的原生多模态AI模型，采用混合专家架构，支持文本和图像输入，输出多语言文本和代码。

多模态融合

Transformers

支持多种语言开源协议:其他 #多模态MoE架构 #170亿激活参数 #原生多模态交互

下载量 2,019

发布时间 : 4/5/2025

模型简介

Llama 4 Maverick是一款高效的多模态模型，适用于商业和研究用途，特别擅长聊天、视觉推理和自然语言生成等任务。

模型特点

多模态体验

支持文本和图像输入，输出多语言文本和代码。

混合专家架构

采用MoE架构，在文本和图像理解方面表现出色。

多语言支持

支持12种语言，预训练包含200种语言。

高效推理

FP8量化权重可在单个H100 DGX主机上运行，保持高质量输出。

模型能力

文本生成

图像理解

视觉推理

多语言处理

代码生成

使用案例

商业和研究

多语言聊天助手

用于多语言环境下的智能对话和问答系统。

在多语言基准测试中表现优异。

视觉推理任务

处理图像识别、图像描述和回答关于图像的问题。

在ChartQA和DocVQA等基准测试中达到90%以上的准确率。

模型改进

合成数据生成

利用模型输出改进其他模型，包括生成训练数据。

🚀 Llama 4模型介绍

Llama 4系列模型是原生多模态AI模型，支持文本和多模态交互体验。这些模型采用混合专家架构，在文本和图像理解方面表现卓越，开启了Llama生态系统的新纪元。本次发布了Llama 4 Scout和Llama 4 Maverick两款高效模型，参数均为170亿，前者有16个专家，后者有128个专家。

🚀 快速开始

安装依赖

请确保你已安装transformers v4.51.0，若未安装，可使用以下命令进行升级：

pip install -U transformers

代码示例

from transformers import AutoTokenizer, Llama4ForConditionalGeneration
import torch

model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8"

tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [
    {"role": "user", "content": "Who are you?"},
]
inputs = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt", return_dict=True)

model = Llama4ForConditionalGeneration.from_pretrained(
    model_id,
    tp_plan="auto",
    torch_dtype="auto",
)

outputs = model.generate(**inputs.to(model.device), max_new_tokens=100)
outputs = tokenizer.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])
print(outputs[0])

✨ 主要特性

多模态体验：支持文本和图像输入，输出多语言文本和代码。
混合专家架构：采用MoE架构，在文本和图像理解方面表现出色。
多语言支持：支持12种语言，预训练包含200种语言。
广泛的应用场景：适用于商业和研究，可用于聊天、视觉推理、自然语言生成等任务。

📦 模型信息

模型开发者

模型架构

Llama 4模型是自回归语言模型，采用混合专家（MoE）架构，并结合早期融合实现原生多模态。

模型参数

模型名称	训练数据	参数	输入模态	输出模态	上下文长度	令牌数量	知识截止日期
Llama 4 Scout (17Bx16E)	公开可用数据、授权数据以及Meta产品和服务中的信息，包括Instagram和Facebook的公开帖子以及用户与Meta AI的交互。更多信息请参考隐私中心。	激活参数：170亿总参数：1090亿	多语言文本和图像	多语言文本和代码	10M	~40T	2024年8月
Llama 4 Maverick (17Bx128E)		激活参数：170亿总参数：4000亿	多语言文本和图像	多语言文本和代码	1M	~22T	2024年8月

支持语言

阿拉伯语、英语、法语、德语、印地语、印尼语、意大利语、葡萄牙语、西班牙语、他加禄语、泰语和越南语。

模型发布日期

2025年4月5日

模型状态

这是一个基于离线数据集训练的静态模型。随着我们根据社区反馈改进模型性能，未来可能会发布调优后的版本。

许可证

自定义商业许可证，即Llama 4社区许可证协议，详情请见：https://github.com/meta-llama/llama-models/blob/main/models/llama4/LICENSE

反馈渠道

关于模型的反馈或评论说明，请参考Llama README。如需了解更多关于生成参数和在应用中使用Llama 4的技术信息，请访问此处。

💻 使用示例

基础用法

from transformers import AutoTokenizer, Llama4ForConditionalGeneration
import torch

model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8"

tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [
    {"role": "user", "content": "Who are you?"},
]
inputs = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt", return_dict=True)

model = Llama4ForConditionalGeneration.from_pretrained(
    model_id,
    tp_plan="auto",
    torch_dtype="auto",
)

outputs = model.generate(**inputs.to(model.device), max_new_tokens=100)
outputs = tokenizer.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])
print(outputs[0])

📚 详细文档

预期用途

预期用例

商业和研究：Llama 4适用于多种语言的商业和研究用途。
指令调优模型：适用于类似助手的聊天和视觉推理任务。
预训练模型：可用于自然语言生成。
视觉任务：优化了视觉识别、图像推理、图像描述和回答关于图像的一般性问题。
模型改进：支持利用其模型输出改进其他模型，包括合成数据生成和蒸馏。

超出范围的使用

违法违规使用：任何违反适用法律法规（包括贸易合规法律）的使用方式。
违反政策使用：任何违反可接受使用政策和Llama 4社区许可证的使用方式。
超出支持范围的使用：使用超出本模型卡明确支持的语言或功能。

注意事项

语言支持：Llama 4在比12种支持语言更广泛的语言集合上进行了训练（预训练包括200种语言）。开发者可以在遵守Llama 4社区许可证和可接受使用政策的前提下，对Llama 4模型进行微调以支持更多语言。开发者需确保以安全和负责任的方式使用Llama 4处理其他语言。
图像理解：Llama 4在图像理解方面最多测试了5张输入图像。如果需要利用超出此范围的图像理解能力，开发者有责任确保其部署能够降低风险，并针对特定应用进行额外的测试和调优。

硬件和软件

训练因素

我们使用自定义训练库、Meta定制的GPU集群和生产基础设施进行预训练。微调、量化、标注和评估也在生产基础设施上进行。

训练能源使用

模型预训练在H100 - 80GB（TDP为700W）类型的硬件上累计使用了738万 GPU小时的计算资源。训练时间是每个模型训练所需的总GPU时间，功耗是所用每个GPU设备的峰值功率容量，并根据电源使用效率进行了调整。

训练温室气体排放

训练的估计总基于位置的温室气体排放量为1999吨 CO2eq。自2020年以来，Meta在其全球运营中保持了净零温室气体排放，并以清洁能源和可再生能源匹配了其100%的电力使用；因此，训练的总基于市场的温室气体排放量为0吨CO2eq。

模型名称	训练时间（GPU小时）	训练功耗（W）	基于位置的训练温室气体排放（吨CO2eq）
Llama 4 Scout	500万	700	1354
Llama 4 Maverick	238万	700	645
总计	738万	-	1999

训练数据

概述

Llama 4 Scout在约40万亿个令牌的多模态数据上进行了预训练，Llama 4 Maverick在约22万亿个令牌的多模态数据上进行了预训练。这些数据来自公开可用数据、授权数据以及Meta产品和服务中的信息，包括Instagram和Facebook的公开帖子以及用户与Meta AI的交互。

数据新鲜度

预训练数据的截止日期为2024年8月。

基准测试

预训练模型

预训练模型
类别	基准测试	样本数	指标	Llama 3.1 70B	Llama 3.1 405B	Llama 4 Scout	Llama 4 Maverick
推理与知识	MMLU	5	macro_avg/acc_char	79.3	85.2	79.6	85.5
	MMLU - Pro	5	macro_avg/em	53.8	61.6	58.2	62.9
	MATH	4	em_maj1@1	41.6	53.5	50.3	61.2
代码	MBPP	3	pass@1	66.4	74.4	67.8	77.6
多语言	TydiQA	1	average/f1	29.9	34.3	31.5	31.7
图像	ChartQA	0	relaxed_accuracy	不支持多模态		83.4	85.3
	DocVQA	0	anls			89.4	91.6

指令调优模型

指令调优模型
类别	基准测试	样本数	指标	Llama 3.3 70B	Llama 3.1 405B	Llama 4 Scout	Llama 4 Maverick
图像推理	MMMU	0	准确率	不支持多模态		69.4	73.4
	MMMU Pro^	0	准确率			52.2	59.6
	MathVista	0	准确率			70.7	73.7
图像理解	ChartQA	0	relaxed_accuracy			88.8	90.0
	DocVQA (测试)	0	anls			94.4	94.4
编码	LiveCodeBench (2024年10月1日 - 2025年2月1日)	0	pass@1	33.3	27.7	32.8	43.4
推理与知识	MMLU Pro	0	macro_avg/acc	68.9	73.4	74.3	80.5
	GPQA Diamond	0	准确率	50.5	49.0	57.2	69.8
多语言	MGSM	0	average/em	91.1	91.6	90.6	92.3
长上下文	MTOB (半本书) eng->kgv/kgv->eng	-	chrF	上下文窗口为128K		42.2/36.6	54.0/46.4
	MTOB (整本书) eng->kgv/kgv->eng	-	chrF			39.7/36.3	50.8/46.7