Meta開源Llama 4 Maverick多模態AI模型 - 支持圖文理解與多語言代碼生成

首頁

Meta Llama Llama 4 Maverick 17B 128E Instruct

由Undi95開發

Llama 4 Maverick 是 Meta 發佈的多模態 AI 模型，支持文本與圖像理解，採用混合專家架構（MoE），在多語言文本和代碼生成任務中表現優異。

多模態融合

Transformers

支持多種語言開源協議:其他 #多模態專家模型 #超長上下文理解 #多語言生成

下載量 35

發布時間 : 4/5/2025

模型概述

Llama 4 Maverick 是一款高效的多模態大語言模型，支持 12 種語言，具備強大的文本和圖像理解能力，適用於商業與研究用途。

模型特點

多模態支持

支持文本和圖像輸入，能夠進行跨模態理解和生成。

混合專家架構

採用 128 專家混合架構，提升模型效率和性能。

多語言能力

支持 12 種語言，適用於全球化應用場景。

高效量化

支持 BF16 和 FP8 量化，便於單機部署。

模型能力

多語言文本生成

圖像理解與描述

代碼生成

多模態推理

對話系統

使用案例

商業應用

多語言客服助手

為企業提供多語言支持的智能客服，提升用戶體驗。

支持 12 種語言的流暢對話，減少人工客服成本。

視覺推理應用

用於圖像識別和描述，適用於電商、醫療等領域。

在 DocVQA 基準測試中達到 91.6 分。

研究與開發

AI 模型蒸餾

利用 Llama 4 生成合成數據，用於訓練更小的模型。

提升小模型性能，降低訓練成本。

自然語言生成研究

用於探索多語言文本生成的先進技術。

在 MMLU 基準測試中達到 85.5 分。

🚀 Llama 4模型

Llama 4系列模型是原生多模態AI模型，支持文本和多模態交互體驗。這些模型採用混合專家架構，在文本和圖像理解方面展現出行業領先的性能。

🚀 快速開始

安裝依賴

請確保你已安裝 transformers v4.51.0，若未安裝，可使用以下命令進行升級：

pip install -U transformers

代碼示例

from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch

model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct"

processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(
    model_id,
    attn_implementation="flex_attention",
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

url1 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/0052a70beed5bf71b92610a43a52df6d286cd5f3/diffusers/rabbit.jpg"
url2 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/datasets/cat_style_layout.png"
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "url": url1},
            {"type": "image", "url": url2},
            {"type": "text", "text": "Can you describe how these two images are similar, and how they differ?"},
        ]
    },
]

inputs = processor.apply_chat_template(
    messages,
    add_generation_prompt=True,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
).to(model.device)

outputs = model.generate(
    **inputs,
    max_new_tokens=256,
)

response = processor.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])[0]
print(response)
print(outputs[0])

✨ 主要特性

多模態體驗：原生支持文本和多模態交互，可處理圖像和文本輸入。
混合專家架構：採用混合專家（MoE）架構，在文本和圖像理解方面表現出色。
多語言支持：支持阿拉伯語、英語、法語、德語、印地語、印尼語、意大利語、葡萄牙語、西班牙語、他加祿語、泰語和越南語等多種語言。
高性能表現：在多個基準測試中展現出優於前代模型的性能。

📦 安裝指南

請確保你已安裝 transformers v4.51.0，若未安裝，可使用以下命令進行升級：

pip install -U transformers

💻 使用示例

基礎用法

from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch

model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct"

processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(
    model_id,
    attn_implementation="flex_attention",
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

url1 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/0052a70beed5bf71b92610a43a52df6d286cd5f3/diffusers/rabbit.jpg"
url2 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/datasets/cat_style_layout.png"
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "url": url1},
            {"type": "image", "url": url2},
            {"type": "text", "text": "Can you describe how these two images are similar, and how they differ?"},
        ]
    },
]

inputs = processor.apply_chat_template(
    messages,
    add_generation_prompt=True,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
).to(model.device)

outputs = model.generate(
    **inputs,
    max_new_tokens=256,
)

response = processor.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])[0]
print(response)
print(outputs[0])

📚 詳細文檔

模型信息

模型開發者：Meta
模型架構：Llama 4模型是自迴歸語言模型，採用混合專家（MoE）架構，並集成早期融合技術以實現原生多模態。

屬性	詳情
模型類型	Llama 4 Scout (17Bx16E)、Llama 4 Maverick (17Bx128E)
訓練數據	公開可用數據、授權數據以及Meta產品和服務中的信息，包括Instagram和Facebook上的公開帖子以及用戶與Meta AI的交互。更多信息請參考隱私中心
參數量	Llama 4 Scout：激活參數17B，總參數109B；Llama 4 Maverick：激活參數17B，總參數400B
輸入模態	多語言文本和圖像
輸出模態	多語言文本和代碼
上下文長度	Llama 4 Scout：10M；Llama 4 Maverick：1M
標記數量	Llama 4 Scout：~40T；Llama 4 Maverick：~22T
知識截止日期	2024年8月

預期用途

預期用例：Llama 4適用於多語言商業和研究用途。指令微調模型適用於類似助手的聊天和視覺推理任務，而預訓練模型可用於自然語言生成。在視覺方面，Llama 4模型還針對視覺識別、圖像推理、圖像描述和回答關於圖像的一般問題進行了優化。Llama 4模型系列還支持利用其模型輸出改進其他模型，包括合成數據生成和蒸餾。Llama 4社區許可證允許這些用例。
超出範圍的使用：以任何違反適用法律法規（包括貿易合規法律）的方式使用；以可接受使用政策和Llama 4社區許可證禁止的任何其他方式使用；使用超出本模型卡片明確支持的語言或功能。

硬件和軟件

訓練因素：使用自定義訓練庫、Meta的自定義GPU集群和生產基礎設施進行預訓練。微調、量化、註釋和評估也在生產基礎設施上進行。
訓練能源使用：模型預訓練在H100 - 80GB（TDP為700W）類型的硬件上累計使用了738萬個GPU小時的計算資源。訓練時間是每個模型訓練所需的總GPU時間，功耗是所用每個GPU設備的峰值功率容量，並根據電源使用效率進行了調整。
訓練溫室氣體排放：估計基於位置的總溫室氣體排放量為1999噸CO2eq。自2020年以來，Meta在其全球運營中保持淨零溫室氣體排放，並以清潔能源和可再生能源匹配其100%的電力使用；因此，基於市場的訓練總溫室氣體排放量為0噸CO2eq。

模型名稱	訓練時間（GPU小時）	訓練功耗（W）	基於位置的訓練溫室氣體排放（噸CO2eq）
Llama 4 Scout	5.0M	700	1354
Llama 4 Maverick	2.38M	700	645
總計	7.38M	-	1999

基準測試

預訓練模型

類別	基準測試	樣本數量	指標	Llama 3.1 70B	Llama 3.1 405B	Llama 4 Scout	Llama 4 Maverick
推理與知識	MMLU	5	macro_avg/acc_char	79.3	85.2	79.6	85.5
	MMLU-Pro	5	macro_avg/em	53.8	61.6	58.2	62.9
	MATH	4	em_maj1@1	41.6	53.5	50.3	61.2
代碼	MBPP	3	pass@1	66.4	74.4	67.8	77.6
多語言	TydiQA	1	average/f1	29.9	34.3	31.5	31.7
圖像	ChartQA	0	relaxed_accuracy	不支持多模態		83.4	85.3
	DocVQA	0	anls			89.4	91.6

指令微調模型

類別	基準測試	樣本數量	指標	Llama 3.3 70B	Llama 3.1 405B	Llama 4 Scout	Llama 4 Maverick
圖像推理	MMMU	0	準確率	不支持多模態		69.4	73.4
	MMMU Pro^	0	準確率			52.2	59.6
	MathVista	0	準確率			70.7	73.7
圖像理解	ChartQA	0	relaxed_accuracy			88.8	90.0
	DocVQA (測試)	0	anls			94.4	94.4
編碼	LiveCodeBench (2024年10月1日 - 2025年2月1日)	0	pass@1	33.3	27.7	32.8	43.4
推理與知識	MMLU Pro	0	macro_avg/em	68.9	73.4	74.3	80.5
	GPQA Diamond	0	準確率	50.5	49.0	57.2	69.8
多語言	MGSM	0	average/em	91.1	91.6	90.6	92.3
長上下文	MTOB (半本書) eng->kgv/kgv->eng	-	chrF	上下文窗口為128K		42.2/36.6	54.0/46.4
	MTOB (整本書) eng->kgv/kgv->eng	-	chrF			39.7/36.3	50.8/46.7

^MMMU Pro報告的數字是標準和視覺任務的平均值

量化

Llama 4 Scout模型以BF16權重發布，但可以通過即時int4量化適配單個H100 GPU；Llama 4 Maverick模型以BF16和FP8量化權重發布。FP8量化權重可以在單個H100 DGX主機上運行，同時保持質量。我們還提供了即時int4量化的代碼，以最大限度地減少性能下降。

保障措施

模型級微調

微調數據：採用多方面的數據收集方法，將供應商提供的人工生成數據與合成數據相結合，以降低潛在的安全風險。開發了許多基於大語言模型（LLM）的分類器，以便精心選擇高質量的提示和響應，加強數據質量控制。
拒絕率：在Llama 3模型的基礎上，我們非常重視降低Llama 4模型對良性提示的拒絕率。在安全數據策略中包括了邊界和對抗性提示，並修改了安全數據響應以遵循語氣指南。
語氣：擴展了在Llama 3上關於拒絕語氣的工作，使模型聽起來更自然。目標是去除說教和過度道德化的語言，並糾正格式問題，包括正確使用標題、列表、表格等。
系統提示：Llama 4是一個更易於引導的模型，這意味著可以輕鬆調整響應以滿足特定的開發者需求。有效的系統提示可以顯著提高大語言模型的性能。特別是，我們發現使用系統提示可以有效地減少錯誤拒絕和大語言模型中常見的模板化或“說教式”語言模式。它們還可以提高對話性和正確使用格式。

Llama 4系統保護

我們為社區提供了系統級的保護措施，如Llama Guard、Prompt Guard和Code Shield，開發者應將這些措施與Llama模型或其他大語言模型一起部署。我們所有的參考實現演示默認都包含這些保障措施，以便開發者可以立即從系統級安全中受益。

評估

我們對Llama模型進行了常見用例和特定能力的評估。常見用例評估衡量了大多數常見應用（包括聊天機器人、視覺問答）系統的安全風險。我們構建了專門的對抗性評估數據集，並評估了由Llama模型和Llama Guard 3組成的系統，以過濾輸入提示和輸出響應。在上下文中評估應用程序很重要，我們建議為你的用例構建專門的評估數據集。如果與應用程序相關，Prompt Guard和Code Shield也可用。

關鍵風險

CBRNE（化學、生物、放射、核和爆炸材料）幫助性：為了評估Llama 4與化學和生物武器擴散相關的風險，我們應用了專家設計和其他有針對性的評估，以評估使用Llama 4是否會顯著提高惡意行為者計劃或實施使用此類武器的攻擊的能力。我們還對與該風險領域相關的內容政策違規行為進行了額外的紅隊測試和評估。
兒童安全：我們首先利用數據過濾等預訓練方法來降低模型中的兒童安全風險。為了評估訓練後模型的兒童安全風險，一組專家評估了模型產生可能導致兒童安全風險輸出的能力。我們利用這些信息進行額外的模型微調，並進行深入的紅隊測試。我們還擴展了兒童安全評估基準，以涵蓋Llama 4的多圖像和多語言能力。
網絡攻擊支持：我們的網絡評估調查了Llama 4是否有足夠的能力導致災難性的威脅場景結果。我們進行了威脅建模練習，以確定在技能水平和速度方面，跨關鍵攻擊向量自動化操作或增強人類能力所需的特定模型能力。然後，我們確定並開發了針對這些能力的挑戰，以測試Llama 4和同類模型。具體來說，我們專注於評估Llama 4自動化網絡攻擊、識別和利用安全漏洞以及自動化有害工作流程的能力。總體而言，我們發現Llama 4模型不會引入可能導致災難性網絡結果的風險。

社區

生成式AI安全需要專業知識和工具，我們相信開放社區的力量可以加速其發展。我們是開放聯盟的積極成員，包括AI聯盟、AI合作組織和MLCommons，積極為安全標準化和透明度做出貢獻。我們鼓勵社區採用MLCommons概念驗證評估等分類法，以促進安全和內容評估方面的合作和透明度。我們的信任工具已開源供社區使用，並廣泛分發給包括雲服務提供商在內的生態系統合作伙伴。我們鼓勵社區為我們的Github倉庫做出貢獻。

我們還設立了Llama影響贈款計劃，以確定和支持Meta的Llama模型在教育、氣候和開放創新三個類別中對社會有益的最有吸引力的應用。數百份申請中的20名決賽選手可以在這裡找到。

最後，我們建立了一套資源，包括輸出報告機制和漏洞獎勵計劃，以在社區的幫助下不斷改進Llama技術。

注意事項和限制

我們的AI基於言論自由的價值觀，幫助人們使用我們的技術進行探索、辯論和創新。我們尊重人們的自主權，使他們能夠選擇如何體驗、交互和構建AI。我們的AI促進思想的開放交流。

Llama 4旨在為所有人服務，並適用於廣泛的用例。因此，它設計為對不同背景、經驗和觀點的人都可訪問。Llama 4以用戶的實際情況對待他們及其需求，不插入不必要的判斷，同時認識到即使在某些情況下可能看起來有問題的內容，在其他情況下也可能有價值。它尊重所有用戶的自主權，特別是在推動創新和進步的自由思想和表達價值觀方面。

Llama 4是一項新技術，與任何新技術一樣，其使用存在風險。到目前為止進行的測試尚未涵蓋，也不可能涵蓋所有場景。因此，與所有大語言模型一樣，Llama 4的潛在輸出無法提前預測，並且在某些情況下，模型可能會對用戶提示產生不準確或其他令人反感的響應。因此，在部署Llama 4模型的任何應用程序之前，開發者應針對其特定的模型應用進行安全測試和微調。我們還鼓勵開源社區將Llama用於研究目的，並構建解決新興風險的先進工具。請參考可用資源，包括我們的《開發者使用指南：AI保護》、Llama保護解決方案和其他資源以瞭解更多信息。