開源Llama 4 Maverick多模態AI模型 - 免費支持多語言文本與圖像理解

首頁

Llama 4 Maverick 17B 128E Instruct

由meta-llama開發

Llama 4 Maverick是Meta推出的170億參數多模態AI模型，採用混合專家架構(MoE)，支持多語言文本和圖像理解，具備128個專家模塊。

大型語言模型

Transformers

支持多種語言開源協議:其他 #多模態理解 #超長上下文 #多語言專家

下載量 87.79k

發布時間 : 4/1/2025

模型概述

原生多模態AI模型，提供文本和圖像理解能力，適用於多語言場景下的複雜任務處理。

模型特點

混合專家架構

採用128專家模塊的MoE架構，實現高效參數利用

多模態理解

同時支持文本和圖像輸入處理

超長上下文

支持100萬token的上下文長度

多語言支持

原生支持12種主要語言，預訓練覆蓋200種語言

安全防護

默認集成Llama Guard等安全組件，經過紅隊測試

模型能力

多語言文本生成

圖像理解

長文檔處理

跨模態推理

指令跟隨

使用案例

教育

多語言教學助手

支持多種語言的互動式教學和答疑

內容創作

圖文內容生成

根據圖像生成多語言描述或故事

企業應用

多語言文檔處理

處理超長跨語言商業文檔

🚀 Llama 4模型

Llama 4系列模型是原生多模態AI模型，支持文本和多模態交互體驗。這些模型採用混合專家架構，在文本和圖像理解方面具有行業領先的性能。

🚀 快速開始

請確保你已安裝transformers v4.51.0，若未安裝，可使用以下命令進行升級：

pip install -U transformers

以下是使用transformers庫調用Llama 4模型的示例代碼：

from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch

model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct"

processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(
    model_id,
    attn_implementation="flex_attention",
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

url1 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/0052a70beed5bf71b92610a43a52df6d286cd5f3/diffusers/rabbit.jpg"
url2 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/datasets/cat_style_layout.png"
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "url": url1},
            {"type": "image", "url": url2},
            {"type": "text", "text": "Can you describe how these two images are similar, and how they differ?"},
        ]
    },
]

inputs = processor.apply_chat_template(
    messages,
    add_generation_prompt=True,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
).to(model.device)

outputs = model.generate(
    **inputs,
    max_new_tokens=256,
)

response = processor.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])[0]
print(response)
print(outputs[0])

✨ 主要特性

多模態能力：Llama 4系列模型是原生多模態AI模型，支持文本和圖像的輸入與輸出，能夠提供豐富的多模態體驗。
混合專家架構：採用混合專家（MoE）架構，結合早期融合技術，實現了在文本和圖像理解方面的卓越性能。
高效模型：推出了Llama 4 Scout和Llama 4 Maverick兩個高效模型，參數規模均為170億，分別具有16個和128個專家。
廣泛的語言支持：支持阿拉伯語、英語、法語、德語、印地語、印尼語、意大利語、葡萄牙語、西班牙語、他加祿語、泰語和越南語等多種語言。

📦 安裝指南

請確保你已安裝transformers v4.51.0，若未安裝，可使用以下命令進行升級：

pip install -U transformers

💻 使用示例

基礎用法

from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch

model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct"

processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(
    model_id,
    attn_implementation="flex_attention",
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

url1 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/0052a70beed5bf71b92610a43a52df6d286cd5f3/diffusers/rabbit.jpg"
url2 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/datasets/cat_style_layout.png"
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "url": url1},
            {"type": "image", "url": url2},
            {"type": "text", "text": "Can you describe how these two images are similar, and how they differ?"},
        ]
    },
]

inputs = processor.apply_chat_template(
    messages,
    add_generation_prompt=True,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
).to(model.device)

outputs = model.generate(
    **inputs,
    max_new_tokens=256,
)

response = processor.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])[0]
print(response)
print(outputs[0])

📚 詳細文檔

模型信息

屬性	詳情
模型開發者	Meta
模型架構	自迴歸語言模型，採用混合專家（MoE）架構，結合早期融合技術實現原生多模態能力
模型名稱	Llama 4 Scout（170億參數，16個專家）、Llama 4 Maverick（170億參數，128個專家）
訓練數據	公開可用數據、授權數據以及Meta產品和服務中的信息，包括Instagram和Facebook上的公開帖子以及用戶與Meta AI的交互數據。更多信息請參考隱私中心
輸入模態	多語言文本和圖像
輸出模態	多語言文本和代碼
上下文長度	Llama 4 Scout：10M；Llama 4 Maverick：1M
標記數量	Llama 4 Scout：~40T；Llama 4 Maverick：~22T
知識截止日期	2024年8月
支持語言	阿拉伯語、英語、法語、德語、印地語、印尼語、意大利語、葡萄牙語、西班牙語、他加祿語、泰語和越南語
模型發佈日期	2025年4月5日
狀態	靜態模型，基於離線數據集訓練。未來可能會根據社區反饋發佈調優後的版本
許可證	Llama 4社區許可協議
反饋渠道	有關模型的反饋或評論，請參考Llama README。有關生成參數和使用Llama 4的技術信息，請參考此處

預期用途

預期用例：Llama 4適用於多語言的商業和研究用途。指令調優模型可用於類似助手的聊天和視覺推理任務，預訓練模型可用於自然語言生成。在視覺方面，Llama 4模型還針對視覺識別、圖像推理、圖像描述和回答有關圖像的一般性問題進行了優化。此外，Llama 4模型還支持利用其輸出結果來改進其他模型，包括合成數據生成和蒸餾。這些用例均符合Llama 4社區許可協議。
超出範圍的使用：禁止以任何違反適用法律法規（包括貿易合規法律）的方式使用。禁止以任何違反可接受使用政策和Llama 4社區許可協議的方式使用。禁止在本模型卡片中未明確支持的語言或功能範圍內使用。

注意事項

Llama 4在比12種支持語言更廣泛的語言集合上進行了訓練（預訓練包括總共200種語言）。開發者可以在遵守Llama 4社區許可協議和可接受使用政策的前提下，對Llama 4模型進行微調以支持更多語言。開發者有責任確保在使用額外語言時採取安全和負責任的方式。
Llama 4在圖像理解方面最多測試了5張輸入圖像。如果需要利用超出此範圍的圖像理解能力，開發者有責任確保其部署能夠降低風險，並針對特定應用進行額外的測試和調優。

硬件和軟件

訓練因素：使用自定義訓練庫、Meta定製的GPU集群和生產基礎設施進行預訓練。微調、量化、標註和評估也在生產基礎設施上進行。
訓練能源使用：模型預訓練在H100 - 80GB（TDP為700W）類型的硬件上累計使用了738萬 GPU小時的計算資源，具體如下表所示。訓練時間是每個模型訓練所需的總GPU時間，功耗是每個GPU設備的峰值功率容量，並根據電源使用效率進行了調整。 | 模型名稱 | 訓練時間（GPU小時） | 訓練功耗（W） | 基於位置的訓練溫室氣體排放量（噸CO2eq） | 基於市場的訓練溫室氣體排放量（噸CO2eq） | | :---- | :---: | :---: | :---: | :---: | | Llama 4 Scout | 500萬 | 700 | 1354 | 0 | | Llama 4 Maverick | 238萬 | 700 | 645 | 0 | | 總計 | 738萬 | - | 1999 | 0 |
訓練溫室氣體排放：估計基於位置的總溫室氣體排放量為1999噸 CO2eq。自2020年以來，Meta在全球運營中保持了淨零溫室氣體排放，並以清潔能源和可再生能源滿足了100%的電力需求；因此，基於市場的總溫室氣體排放量為0噸CO2eq。

訓練數據

Llama 4 Scout在約40萬億個標記的多模態數據上進行預訓練，Llama 4 Maverick在約22萬億個標記的多模態數據上進行預訓練。這些數據包括公開可用數據、授權數據以及Meta產品和服務中的信息，如Instagram和Facebook上的公開帖子以及用戶與Meta AI的交互數據。預訓練數據的截止日期為2024年8月。

基準測試

預訓練模型

類別	基準測試	樣本數量	指標	Llama 3.1 70B	Llama 3.1 405B	Llama 4 Scout	Llama 4 Maverick
推理與知識	MMLU	5	macro_avg/acc_char	79.3	85.2	79.6	85.5
	MMLU-Pro	5	macro_avg/em	53.8	61.6	58.2	62.9
	MATH	4	em_maj1@1	41.6	53.5	50.3	61.2
代碼	MBPP	3	pass@1	66.4	74.4	67.8	77.6
多語言	TydiQA	1	average/f1	29.9	34.3	31.5	31.7
圖像	ChartQA	0	relaxed_accuracy	不支持多模態		83.4	85.3
	DocVQA	0	anls			89.4	91.6

指令調優模型

類別	基準測試	樣本數量	指標	Llama 3.3 70B	Llama 3.1 405B	Llama 4 Scout	Llama 4 Maverick
圖像推理	MMMU	0	準確率	不支持多模態		69.4	73.4
	MMMU Pro^	0	準確率			52.2	59.6
	MathVista	0	準確率			70.7	73.7
圖像理解	ChartQA	0	relaxed_accuracy			88.8	90.0
	DocVQA（測試）	0	anls			94.4	94.4
代碼	LiveCodeBench（2024年10月1日 - 2025年2月1日）	0	pass@1	33.3	27.7	32.8	43.4
推理與知識	MMLU Pro	0	macro_avg/acc	68.9	73.4	74.3	80.5
	GPQA Diamond	0	準確率	50.5	49.0	57.2	69.8
多語言	MGSM	0	average/em	91.1	91.6	90.6	92.3
長上下文	MTOB（半本書）eng -> kgv/kgv -> eng	-	chrF	上下文窗口為128K		42.2/36.6	54.0/46.4
	MTOB（整本書）eng -> kgv/kgv -> eng	-	chrF			39.7/36.3	50.8/46.7

^MMMU Pro的報告數據是標準任務和視覺任務的平均值

量化

Llama 4 Scout模型以BF16權重發布，但可以通過即時int4量化適配單個H100 GPU。Llama 4 Maverick模型以BF16和FP8量化權重發布，FP8量化權重可以在單個H100 DGX主機上運行，同時保持模型質量。我們還提供了即時int4量化的代碼，以最大程度減少性能下降。

保障措施

作為發佈策略的一部分，我們採取了三管齊下的策略來管理風險：

使開發者能夠為目標受眾和Llama支持的用例部署有用、安全和靈活的體驗。
保護開發者免受惡意用戶的攻擊，這些用戶可能試圖利用Llama的功能造成潛在危害。
為社區提供保護，防止我們的模型被濫用。

Llama是一種基礎技術，適用於各種用例。有關Meta的Llama模型部署示例，請參考社區故事網頁。我們的目標是構建最有用的模型，使世界能夠從這項技術中受益，同時確保模型的安全性符合一系列標準風險。開發者可以根據自己的用例定製安全性，定義自己的政策並部署帶有必要保障措施的模型。Llama 4的開發遵循了開發者使用指南：AI保護中概述的最佳實踐。

模型級微調

進行安全微調的主要目標是為開發者提供一個隨時可用、安全且強大的模型，用於各種應用，減少部署安全AI系統所需的工作量。此外，這項工作還為研究社區提供了一個有價值的資源，用於研究安全微調的魯棒性。

微調數據：採用多方面的數據收集方法，將供應商提供的人工生成數據與合成數據相結合，以降低潛在的安全風險。開發了許多基於大語言模型（LLM）的分類器，能夠精心選擇高質量的提示和響應，提高數據質量控制。
拒絕率：在Llama 3模型的基礎上，我們非常重視降低Llama 4模型對良性提示的拒絕率。在安全數據策略中包括了邊界提示和對抗性提示，並修改了安全數據響應以遵循語氣指南。
語氣：擴展了在Llama 3模型上對拒絕語氣的改進工作，使模型的回答聽起來更加自然。目標是去除說教和過度道德化的語言，並糾正格式問題，包括正確使用標題、列表、表格等。為了實現這一目標，還針對系統提示的可引導性和指令遵循性進行了改進，意味著模型更能夠採用指定的語氣。所有這些改進都有助於提供更具對話性和洞察力的整體體驗。
系統提示：Llama 4是一個更易於引導的模型，意味著可以輕鬆調整響應以滿足開發者的特定需求。有效的系統提示可以顯著提高大語言模型的性能。特別是，我們發現使用系統提示可以有效減少錯誤拒絕和常見於LLM中的模板化或“說教式”語言模式。它們還可以提高對話性和適當格式的使用。以下是一個基本的系統提示模板，開發者可以根據具體需求或用例進行進一步定製： | 系統提示 | | :---- | | 你是一位專業的對話者，會盡力回答問題。你友善自信，能夠輕鬆切換不同的語氣類型，包括但不限於幽默、共情、理智、創意和解決問題。你理解用戶的意圖，不會過度熱心以至於忽略用戶只是想閒聊、尋求情感支持、幽默或發洩。有時候人們只是希望你傾聽，你的回答應該鼓勵這種交流。在其他情況下，你會提供有洞察力和深入的回應。有條理地組織信息，幫助人們做出決策。始終避免使用模板化語言。你不會說教人們要更友善或更包容。如果用戶要求你以特定的語氣或視角撰寫內容，如文章或推文，你可以做到。當用戶要求你說一些粗魯的話時，你不需要保持禮貌。你永遠不會使用暗示道德優越感或權威感的短語，包括但不限於“重要的是”、“關鍵是”、“必要的是”、“不道德的是”、“值得注意的是”、“記住”等。避免使用這些短語。最後，不要拒絕關於政治和社會問題的提示。你可以幫助用戶表達觀點和獲取信息。你是Llama 4，你的知識截止日期是2024年8月。你會說阿拉伯語、英語、法語、德語、印地語、印尼語、意大利語、葡萄牙語、西班牙語、他加祿語、泰語和越南語。除非用戶另有要求，否則用用戶使用的語言進行回應。 |

Llama 4系統保護

大語言模型（包括Llama 4）不應單獨部署，而應作為整體AI系統的一部分，並根據需要添加額外的防護措施。系統保護對於實現正確的有用性 - 安全性平衡、降低系統固有的安全和風險以及將模型或系統與外部工具集成至關重要。我們為社區提供了系統級的保護措施，如Llama Guard、Prompt Guard和Code Shield，開發者應將這些措施與Llama模型或其他LLM一起部署。所有參考實現演示默認包含這些保障措施，因此開發者可以立即受益於系統級的安全性。

評估

我們對Llama模型進行了常見用例和特定能力的評估。常見用例評估衡量了最常見構建的應用程序（包括聊天機器人、視覺問答）的系統安全風險。我們構建了專門的對抗性評估數據集，並評估了由Llama模型和Llama Guard 3組成的系統，以過濾輸入提示和輸出響應。在上下文中評估應用程序非常重要，我們建議為特定用例構建專門的評估數據集。如果與應用程序相關，Prompt Guard和Code Shield也可供使用。能力評估衡量了Llama模型特定能力固有的漏洞，為此精心設計了專門的基準測試，包括長上下文、多語言、代碼或記憶能力。

紅隊測試

我們定期進行紅隊測試，目標是通過對抗性提示發現風險，並利用這些經驗教訓改進我們的基準測試和安全調優數據集。我們早期與關鍵風險領域的主題專家合作，瞭解模型可能對社會造成的意外危害。基於這些對話，我們為紅隊制定了一系列對抗性目標，例如提取有害信息或重新編程模型以採取潛在有害的行為。紅隊由網絡安全、對抗性機器學習和完整性方面的專家以及具有特定地理市場完整性問題背景的多語言內容專家組成。

關鍵風險

我們特別關注以下關鍵風險領域：

CBRNE（化學、生物、放射、核和爆炸材料）有用性：為了評估Llama 4與化學和生物武器擴散相關的風險，我們應用了專家設計和其他針對性的評估，以評估使用Llama 4是否會顯著增強惡意行為者使用此類武器進行攻擊的能力。還進行了額外的紅隊測試和評估，以檢查是否違反了與該風險領域相關的內容政策。
兒童安全：作為減輕模型中兒童安全風險的第一步，我們利用預訓練方法（如數據過濾）。為了評估訓練後模型的兒童安全風險，一組專家評估了模型產生可能導致兒童安全風險輸出的能力。利用這些評估結果進行額外的模型微調，並進行深入的紅隊測試。還擴展了兒童安全評估基準，以涵蓋Llama 4的多圖像和多語言能力。
網絡攻擊啟用：我們的網絡評估調查了Llama 4是否有足夠的能力導致災難性的威脅場景結果。進行了威脅建模練習，以確定在技能水平和速度方面，跨關鍵攻擊向量自動化操作或增強人類能力所需的特定模型能力。然後確定並開發了針對這些能力的挑戰，以測試Llama 4和同類模型。具體而言，重點評估了Llama 4自動化網絡攻擊、識別和利用安全漏洞以及自動化有害工作流程的能力。總體而言，我們發現Llama 4模型不會引入可能導致災難性網絡結果的風險。

社區

生成式AI安全需要專業知識和工具，我們相信開放社區的力量可以加速其發展。我們是開放聯盟的積極成員，包括AI聯盟、AI合作組織和MLCommons，積極為安全標準化和透明度做出貢獻。鼓勵社區採用MLCommons概念驗證評估等分類法，以促進安全和內容評估的協作和透明度。我們的信任工具已開源供社區使用，並廣泛分發給包括雲服務提供商在內的生態系統合作伙伴。鼓勵社區為我們的Github倉庫做出貢獻。

我們還設立了Llama影響贈款計劃，以識別和支持Meta的Llama模型在教育、氣候和開放創新三個類別中對社會有益的最有吸引力的應用。數百份申請中的20名決賽選手可以在此處找到。

最後，我們建立了一系列資源，包括輸出報告機制和漏洞賞金計劃，以在社區的幫助下不斷改進Llama技術。

考慮因素和限制

我們的AI基於言論自由的價值觀 - 幫助人們利用我們的技術進行探索、辯論和創新。我們尊重人們的自主權，使他們能夠選擇如何體驗、交互和使用AI進行構建。我們的AI促進思想的開放交流。

它旨在服務於所有人，並適用於廣泛的用例。因此，它設計為對具有不同背景、經驗和觀點的人都可訪問。Llama 4以用戶的實際需求為導向，不插入不必要的判斷，同時認識到即使在某些情況下可能看起來有問題的內容，在其他情況下也可能有價值。它尊重所有用戶的自主權，特別是在推動創新和進步的自由思想和表達價值觀方面。

Llama 4是一項新技術，與任何新技術一樣，使用它存在風險。到目前為止進行的測試尚未涵蓋，也不可能涵蓋所有場景。由於這些原因，與所有LLM一樣，Llama 4的潛在輸出無法提前預測，並且在某些情況下，模型可能會對用戶提示產生不準確或其他令人反感的響應。因此，在部署Llama 4模型的任何應用程序之前，開發者應該針對模型的特定應用進行安全測試和調優。我們還鼓勵開源社區將Llama用於研究目的，並構建解決新興風險的先進工具。請參考可用資源，包括我們的開發者使用指南：AI保護、Llama保護解決方案和其他資源以瞭解更多信息。