Llama 4 Maverick開源多模態AI模型 - 支持圖文輸入，輸出多語言文本與代碼

首頁

Llama 4 Maverick 17B 128E Instruct FP8

由chutesai開發

Llama 4 Maverick是Meta推出的原生多模態AI模型，採用混合專家架構，支持文本和圖像輸入，輸出多語言文本和代碼。

多模態融合

Transformers

支持多種語言開源協議:其他 #多模態MoE架構 #170億激活參數 #原生多模態交互

下載量 2,019

發布時間 : 4/5/2025

模型概述

Llama 4 Maverick是一款高效的多模態模型，適用於商業和研究用途，特別擅長聊天、視覺推理和自然語言生成等任務。

模型特點

多模態體驗

支持文本和圖像輸入，輸出多語言文本和代碼。

混合專家架構

採用MoE架構，在文本和圖像理解方面表現出色。

多語言支持

支持12種語言，預訓練包含200種語言。

高效推理

FP8量化權重可在單個H100 DGX主機上運行，保持高質量輸出。

模型能力

文本生成

圖像理解

視覺推理

多語言處理

代碼生成

使用案例

商業和研究

多語言聊天助手

用於多語言環境下的智能對話和問答系統。

在多語言基準測試中表現優異。

視覺推理任務

處理圖像識別、圖像描述和回答關於圖像的問題。

在ChartQA和DocVQA等基準測試中達到90%以上的準確率。

模型改進

合成數據生成

利用模型輸出改進其他模型，包括生成訓練數據。

🚀 Llama 4模型介紹

Llama 4系列模型是原生多模態AI模型，支持文本和多模態交互體驗。這些模型採用混合專家架構，在文本和圖像理解方面表現卓越，開啟了Llama生態系統的新紀元。本次發佈了Llama 4 Scout和Llama 4 Maverick兩款高效模型，參數均為170億，前者有16個專家，後者有128個專家。

🚀 快速開始

安裝依賴

請確保你已安裝transformers v4.51.0，若未安裝，可使用以下命令進行升級：

pip install -U transformers

代碼示例

from transformers import AutoTokenizer, Llama4ForConditionalGeneration
import torch

model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8"

tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [
    {"role": "user", "content": "Who are you?"},
]
inputs = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt", return_dict=True)

model = Llama4ForConditionalGeneration.from_pretrained(
    model_id,
    tp_plan="auto",
    torch_dtype="auto",
)

outputs = model.generate(**inputs.to(model.device), max_new_tokens=100)
outputs = tokenizer.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])
print(outputs[0])

✨ 主要特性

多模態體驗：支持文本和圖像輸入，輸出多語言文本和代碼。
混合專家架構：採用MoE架構，在文本和圖像理解方面表現出色。
多語言支持：支持12種語言，預訓練包含200種語言。
廣泛的應用場景：適用於商業和研究，可用於聊天、視覺推理、自然語言生成等任務。

📦 模型信息

模型開發者

模型架構

Llama 4模型是自迴歸語言模型，採用混合專家（MoE）架構，並結合早期融合實現原生多模態。

模型參數

模型名稱	訓練數據	參數	輸入模態	輸出模態	上下文長度	令牌數量	知識截止日期
Llama 4 Scout (17Bx16E)	公開可用數據、授權數據以及Meta產品和服務中的信息，包括Instagram和Facebook的公開帖子以及用戶與Meta AI的交互。更多信息請參考隱私中心。	激活參數：170億總參數：1090億	多語言文本和圖像	多語言文本和代碼	10M	~40T	2024年8月
Llama 4 Maverick (17Bx128E)		激活參數：170億總參數：4000億	多語言文本和圖像	多語言文本和代碼	1M	~22T	2024年8月

支持語言

阿拉伯語、英語、法語、德語、印地語、印尼語、意大利語、葡萄牙語、西班牙語、他加祿語、泰語和越南語。

模型發佈日期

2025年4月5日

模型狀態

這是一個基於離線數據集訓練的靜態模型。隨著我們根據社區反饋改進模型性能，未來可能會發布調優後的版本。

許可證

自定義商業許可證，即Llama 4社區許可證協議，詳情請見：https://github.com/meta-llama/llama-models/blob/main/models/llama4/LICENSE

反饋渠道

關於模型的反饋或評論說明，請參考Llama README。如需瞭解更多關於生成參數和在應用中使用Llama 4的技術信息，請訪問此處。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, Llama4ForConditionalGeneration
import torch

model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8"

tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [
    {"role": "user", "content": "Who are you?"},
]
inputs = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt", return_dict=True)

model = Llama4ForConditionalGeneration.from_pretrained(
    model_id,
    tp_plan="auto",
    torch_dtype="auto",
)

outputs = model.generate(**inputs.to(model.device), max_new_tokens=100)
outputs = tokenizer.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])
print(outputs[0])

📚 詳細文檔

預期用途

預期用例

商業和研究：Llama 4適用於多種語言的商業和研究用途。
指令調優模型：適用於類似助手的聊天和視覺推理任務。
預訓練模型：可用於自然語言生成。
視覺任務：優化了視覺識別、圖像推理、圖像描述和回答關於圖像的一般性問題。
模型改進：支持利用其模型輸出改進其他模型，包括合成數據生成和蒸餾。

超出範圍的使用

違法違規使用：任何違反適用法律法規（包括貿易合規法律）的使用方式。
違反政策使用：任何違反可接受使用政策和Llama 4社區許可證的使用方式。
超出支持範圍的使用：使用超出本模型卡明確支持的語言或功能。

注意事項

語言支持：Llama 4在比12種支持語言更廣泛的語言集合上進行了訓練（預訓練包括200種語言）。開發者可以在遵守Llama 4社區許可證和可接受使用政策的前提下，對Llama 4模型進行微調以支持更多語言。開發者需確保以安全和負責任的方式使用Llama 4處理其他語言。
圖像理解：Llama 4在圖像理解方面最多測試了5張輸入圖像。如果需要利用超出此範圍的圖像理解能力，開發者有責任確保其部署能夠降低風險，並針對特定應用進行額外的測試和調優。

硬件和軟件

訓練因素

我們使用自定義訓練庫、Meta定製的GPU集群和生產基礎設施進行預訓練。微調、量化、標註和評估也在生產基礎設施上進行。

訓練能源使用

模型預訓練在H100 - 80GB（TDP為700W）類型的硬件上累計使用了738萬 GPU小時的計算資源。訓練時間是每個模型訓練所需的總GPU時間，功耗是所用每個GPU設備的峰值功率容量，並根據電源使用效率進行了調整。

訓練溫室氣體排放

訓練的估計總基於位置的溫室氣體排放量為1999噸 CO2eq。自2020年以來，Meta在其全球運營中保持了淨零溫室氣體排放，並以清潔能源和可再生能源匹配了其100%的電力使用；因此，訓練的總基於市場的溫室氣體排放量為0噸CO2eq。

模型名稱	訓練時間（GPU小時）	訓練功耗（W）	基於位置的訓練溫室氣體排放（噸CO2eq）
Llama 4 Scout	500萬	700	1354
Llama 4 Maverick	238萬	700	645
總計	738萬	-	1999

訓練數據

概述

Llama 4 Scout在約40萬億個令牌的多模態數據上進行了預訓練，Llama 4 Maverick在約22萬億個令牌的多模態數據上進行了預訓練。這些數據來自公開可用數據、授權數據以及Meta產品和服務中的信息，包括Instagram和Facebook的公開帖子以及用戶與Meta AI的交互。

數據新鮮度

預訓練數據的截止日期為2024年8月。

基準測試

預訓練模型

預訓練模型
類別	基準測試	樣本數	指標	Llama 3.1 70B	Llama 3.1 405B	Llama 4 Scout	Llama 4 Maverick
推理與知識	MMLU	5	macro_avg/acc_char	79.3	85.2	79.6	85.5
	MMLU - Pro	5	macro_avg/em	53.8	61.6	58.2	62.9
	MATH	4	em_maj1@1	41.6	53.5	50.3	61.2
代碼	MBPP	3	pass@1	66.4	74.4	67.8	77.6
多語言	TydiQA	1	average/f1	29.9	34.3	31.5	31.7
圖像	ChartQA	0	relaxed_accuracy	不支持多模態		83.4	85.3
	DocVQA	0	anls			89.4	91.6

指令調優模型

指令調優模型
類別	基準測試	樣本數	指標	Llama 3.3 70B	Llama 3.1 405B	Llama 4 Scout	Llama 4 Maverick
圖像推理	MMMU	0	準確率	不支持多模態		69.4	73.4
	MMMU Pro^	0	準確率			52.2	59.6
	MathVista	0	準確率			70.7	73.7
圖像理解	ChartQA	0	relaxed_accuracy			88.8	90.0
	DocVQA (測試)	0	anls			94.4	94.4
編碼	LiveCodeBench (2024年10月1日 - 2025年2月1日)	0	pass@1	33.3	27.7	32.8	43.4
推理與知識	MMLU Pro	0	macro_avg/acc	68.9	73.4	74.3	80.5
	GPQA Diamond	0	準確率	50.5	49.0	57.2	69.8
多語言	MGSM	0	average/em	91.1	91.6	90.6	92.3
長上下文	MTOB (半本書) eng->kgv/kgv->eng	-	chrF	上下文窗口為128K		42.2/36.6	54.0/46.4
	MTOB (整本書) eng->kgv/kgv->eng	-	chrF			39.7/36.3	50.8/46.7