模型概述
模型特點
模型能力
使用案例
🚀 Llama 4模型介紹
Llama 4系列模型是原生多模態AI模型,支持文本和多模態交互體驗。這些模型採用混合專家架構,在文本和圖像理解方面表現卓越,開啟了Llama生態系統的新紀元。本次發佈了Llama 4 Scout和Llama 4 Maverick兩款高效模型,參數均為170億,前者有16個專家,後者有128個專家。
🚀 快速開始
安裝依賴
請確保你已安裝transformers v4.51.0
,若未安裝,可使用以下命令進行升級:
pip install -U transformers
代碼示例
from transformers import AutoTokenizer, Llama4ForConditionalGeneration
import torch
model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8"
tokenizer = AutoTokenizer.from_pretrained(model_id)
messages = [
{"role": "user", "content": "Who are you?"},
]
inputs = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt", return_dict=True)
model = Llama4ForConditionalGeneration.from_pretrained(
model_id,
tp_plan="auto",
torch_dtype="auto",
)
outputs = model.generate(**inputs.to(model.device), max_new_tokens=100)
outputs = tokenizer.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])
print(outputs[0])
✨ 主要特性
- 多模態體驗:支持文本和圖像輸入,輸出多語言文本和代碼。
- 混合專家架構:採用MoE架構,在文本和圖像理解方面表現出色。
- 多語言支持:支持12種語言,預訓練包含200種語言。
- 廣泛的應用場景:適用於商業和研究,可用於聊天、視覺推理、自然語言生成等任務。
📦 模型信息
模型開發者
Meta
模型架構
Llama 4模型是自迴歸語言模型,採用混合專家(MoE)架構,並結合早期融合實現原生多模態。
模型參數
模型名稱 | 訓練數據 | 參數 | 輸入模態 | 輸出模態 | 上下文長度 | 令牌數量 | 知識截止日期 |
---|---|---|---|---|---|---|---|
Llama 4 Scout (17Bx16E) | 公開可用數據、授權數據以及Meta產品和服務中的信息,包括Instagram和Facebook的公開帖子以及用戶與Meta AI的交互。更多信息請參考隱私中心。 | 激活參數:170億 總參數:1090億 |
多語言文本和圖像 | 多語言文本和代碼 | 10M | ~40T | 2024年8月 |
Llama 4 Maverick (17Bx128E) | 激活參數:170億 總參數:4000億 |
多語言文本和圖像 | 多語言文本和代碼 | 1M | ~22T | 2024年8月 |
支持語言
阿拉伯語、英語、法語、德語、印地語、印尼語、意大利語、葡萄牙語、西班牙語、他加祿語、泰語和越南語。
模型發佈日期
2025年4月5日
模型狀態
這是一個基於離線數據集訓練的靜態模型。隨著我們根據社區反饋改進模型性能,未來可能會發布調優後的版本。
許可證
自定義商業許可證,即Llama 4社區許可證協議,詳情請見:https://github.com/meta-llama/llama-models/blob/main/models/llama4/LICENSE
反饋渠道
關於模型的反饋或評論說明,請參考Llama README。如需瞭解更多關於生成參數和在應用中使用Llama 4的技術信息,請訪問此處。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, Llama4ForConditionalGeneration
import torch
model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8"
tokenizer = AutoTokenizer.from_pretrained(model_id)
messages = [
{"role": "user", "content": "Who are you?"},
]
inputs = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt", return_dict=True)
model = Llama4ForConditionalGeneration.from_pretrained(
model_id,
tp_plan="auto",
torch_dtype="auto",
)
outputs = model.generate(**inputs.to(model.device), max_new_tokens=100)
outputs = tokenizer.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])
print(outputs[0])
📚 詳細文檔
預期用途
預期用例
- 商業和研究:Llama 4適用於多種語言的商業和研究用途。
- 指令調優模型:適用於類似助手的聊天和視覺推理任務。
- 預訓練模型:可用於自然語言生成。
- 視覺任務:優化了視覺識別、圖像推理、圖像描述和回答關於圖像的一般性問題。
- 模型改進:支持利用其模型輸出改進其他模型,包括合成數據生成和蒸餾。
超出範圍的使用
- 違法違規使用:任何違反適用法律法規(包括貿易合規法律)的使用方式。
- 違反政策使用:任何違反可接受使用政策和Llama 4社區許可證的使用方式。
- 超出支持範圍的使用:使用超出本模型卡明確支持的語言或功能。
注意事項
- 語言支持:Llama 4在比12種支持語言更廣泛的語言集合上進行了訓練(預訓練包括200種語言)。開發者可以在遵守Llama 4社區許可證和可接受使用政策的前提下,對Llama 4模型進行微調以支持更多語言。開發者需確保以安全和負責任的方式使用Llama 4處理其他語言。
- 圖像理解:Llama 4在圖像理解方面最多測試了5張輸入圖像。如果需要利用超出此範圍的圖像理解能力,開發者有責任確保其部署能夠降低風險,並針對特定應用進行額外的測試和調優。
硬件和軟件
訓練因素
我們使用自定義訓練庫、Meta定製的GPU集群和生產基礎設施進行預訓練。微調、量化、標註和評估也在生產基礎設施上進行。
訓練能源使用
模型預訓練在H100 - 80GB(TDP為700W)類型的硬件上累計使用了738萬 GPU小時的計算資源。訓練時間是每個模型訓練所需的總GPU時間,功耗是所用每個GPU設備的峰值功率容量,並根據電源使用效率進行了調整。
訓練溫室氣體排放
訓練的估計總基於位置的溫室氣體排放量為1999噸 CO2eq。自2020年以來,Meta在其全球運營中保持了淨零溫室氣體排放,並以清潔能源和可再生能源匹配了其100%的電力使用;因此,訓練的總基於市場的溫室氣體排放量為0噸CO2eq。
模型名稱 | 訓練時間(GPU小時) | 訓練功耗(W) | 基於位置的訓練溫室氣體排放(噸CO2eq) | 基於市場的訓練溫室氣體排放(噸CO2eq) |
---|---|---|---|---|
Llama 4 Scout | 500萬 | 700 | 1354 | 0 |
Llama 4 Maverick | 238萬 | 700 | 645 | 0 |
總計 | 738萬 | - | 1999 | 0 |
訓練數據
概述
Llama 4 Scout在約40萬億個令牌的多模態數據上進行了預訓練,Llama 4 Maverick在約22萬億個令牌的多模態數據上進行了預訓練。這些數據來自公開可用數據、授權數據以及Meta產品和服務中的信息,包括Instagram和Facebook的公開帖子以及用戶與Meta AI的交互。
數據新鮮度
預訓練數據的截止日期為2024年8月。
基準測試
預訓練模型
預訓練模型 | |||||||
---|---|---|---|---|---|---|---|
類別 | 基準測試 | 樣本數 | 指標 | Llama 3.1 70B | Llama 3.1 405B | Llama 4 Scout | Llama 4 Maverick |
推理與知識 | MMLU | 5 | macro_avg/acc_char | 79.3 | 85.2 | 79.6 | 85.5 |
MMLU - Pro | 5 | macro_avg/em | 53.8 | 61.6 | 58.2 | 62.9 | |
MATH | 4 | em_maj1@1 | 41.6 | 53.5 | 50.3 | 61.2 | |
代碼 | MBPP | 3 | pass@1 | 66.4 | 74.4 | 67.8 | 77.6 |
多語言 | TydiQA | 1 | average/f1 | 29.9 | 34.3 | 31.5 | 31.7 |
圖像 | ChartQA | 0 | relaxed_accuracy | 不支持多模態 | 83.4 | 85.3 | |
DocVQA | 0 | anls | 89.4 | 91.6 |
指令調優模型
指令調優模型 | |||||||
---|---|---|---|---|---|---|---|
類別 | 基準測試 | 樣本數 | 指標 | Llama 3.3 70B | Llama 3.1 405B | Llama 4 Scout | Llama 4 Maverick |
圖像推理 | MMMU | 0 | 準確率 | 不支持多模態 | 69.4 | 73.4 | |
MMMU Pro^ | 0 | 準確率 | 52.2 | 59.6 | |||
MathVista | 0 | 準確率 | 70.7 | 73.7 | |||
圖像理解 | ChartQA | 0 | relaxed_accuracy | 88.8 | 90.0 | ||
DocVQA (測試) | 0 | anls | 94.4 | 94.4 | |||
編碼 | LiveCodeBench (2024年10月1日 - 2025年2月1日) | 0 | pass@1 | 33.3 | 27.7 | 32.8 | 43.4 |
推理與知識 | MMLU Pro | 0 | macro_avg/acc | 68.9 | 73.4 | 74.3 | 80.5 |
GPQA Diamond | 0 | 準確率 | 50.5 | 49.0 | 57.2 | 69.8 | |
多語言 | MGSM | 0 | average/em | 91.1 | 91.6 | 90.6 | 92.3 |
長上下文 | MTOB (半本書) eng->kgv/kgv->eng | - | chrF | 上下文窗口為128K | 42.2/36.6 | 54.0/46.4 | |
MTOB (整本書) eng->kgv/kgv->eng | - | chrF | 39.7/36.3 | 50.8/46.7 |
^MMMU Pro的報告數據是標準任務和視覺任務的平均值
量化
Llama 4 Scout模型以BF16權重發布,但可以通過即時int4量化適配單個H100 GPU;Llama 4 Maverick模型以BF16和FP8量化權重發布。FP8量化權重可以在單個H100 DGX主機上運行,同時保持模型質量。我們還提供了即時int4量化的代碼,以儘量減少性能下降。
安全保障
作為發佈策略的一部分,我們採用了三管齊下的策略來管理風險:
- 賦能開發者:使開發者能夠為其目標受眾和Llama支持的用例部署有用、安全和靈活的體驗。
- 保護開發者:保護開發者免受惡意用戶的攻擊,這些用戶可能試圖利用Llama的功能造成潛在危害。
- 保護社區:為社區提供保護,防止我們的模型被濫用。
Llama是一種基礎技術,旨在用於各種用例。









