🚀 Llama 4模型
Llama 4是一系列原生多模態AI模型,支持文本和多模態交互體驗。這些模型採用混合專家架構,在文本和圖像理解方面表現卓越,開啟了Llama生態系統的新紀元。
🚀 快速開始
安裝依賴
請確保你已安裝transformers v4.51.0
,或使用以下命令進行升級:
pip install -U transformers
代碼示例
from transformers import pipeline
import torch
model_id = "meta-llama/Llama-4-Scout-17B-16E"
pipe = pipeline(
"text-generation",
model=model_id,
device_map="auto",
torch_dtype=torch.bfloat16,
)
output = pipe("Roses are red,", max_new_tokens=200)
✨ 主要特性
- 多語言支持:支持阿拉伯語、英語、法語、德語、印地語、印尼語、意大利語、葡萄牙語、西班牙語、他加祿語、泰語和越南語等多種語言。
- 多模態體驗:原生支持文本和圖像理解,可用於視覺識別、圖像推理、圖像描述等任務。
- 卓越性能:採用混合專家(MoE)架構,在文本和圖像理解方面表現出色。
- 靈活部署:提供量化檢查點,支持在不同硬件上靈活部署。
📦 安裝指南
請確保你已安裝transformers v4.51.0
,或使用以下命令進行升級:
pip install -U transformers
💻 使用示例
基礎用法
from transformers import pipeline
import torch
model_id = "meta-llama/Llama-4-Scout-17B-16E"
pipe = pipeline(
"text-generation",
model=model_id,
device_map="auto",
torch_dtype=torch.bfloat16,
)
output = pipe("Roses are red,", max_new_tokens=200)
📚 詳細文檔
模型信息
屬性 |
詳情 |
模型開發者 |
Meta |
模型架構 |
自迴歸語言模型,採用混合專家(MoE)架構,支持原生多模態 |
訓練數據 |
混合了公開可用數據、授權數據以及Meta產品和服務中的信息,包括Instagram和Facebook上的公開帖子以及用戶與Meta AI的交互 |
支持語言 |
阿拉伯語、英語、法語、德語、印地語、印尼語、意大利語、葡萄牙語、西班牙語、他加祿語、泰語和越南語 |
模型發佈日期 |
2025年4月5日 |
狀態 |
靜態模型,基於離線數據集訓練。未來可能會根據社區反饋發佈調優版本 |
許可證 |
Llama 4社區許可協議 |
預期用途
- 商業和研究用途:支持多語言的商業和研究應用。
- 指令調優模型:適用於類似助手的聊天和視覺推理任務。
- 預訓練模型:可用於自然語言生成。
- 視覺任務:優化了視覺識別、圖像推理、圖像描述和圖像問答等任務。
- 模型改進:支持利用其輸出結果改進其他模型,包括合成數據生成和蒸餾。
硬件和軟件
- 訓練因素:使用自定義訓練庫、Meta定製的GPU集群和生產基礎設施進行預訓練。微調、量化、標註和評估也在生產基礎設施上進行。
- 訓練能耗:模型預訓練在H100 - 80GB(TDP為700W)類型的硬件上累計使用了738萬個GPU小時的計算資源。
- 訓練溫室氣體排放:基於位置的估計總溫室氣體排放量為1999噸CO2eq。自2020年以來,Meta在全球運營中保持淨零溫室氣體排放,並使用100%的清潔和可再生能源匹配其電力使用,因此基於市場的總溫室氣體排放量為0噸CO2eq。
訓練數據
- 概述:Llama 4 Scout在約40萬億個多模態數據令牌上進行預訓練,Llama 4 Maverick在約22萬億個多模態數據令牌上進行預訓練。數據來源包括公開可用數據、授權數據以及Meta產品和服務中的信息。
- 數據新鮮度:預訓練數據截止到2024年8月。
基準測試
預訓練模型
類別 |
基準測試 |
樣本數 |
指標 |
Llama 3.1 70B |
Llama 3.1 405B |
Llama 4 Scout |
Llama 4 Maverick |
推理與知識 |
MMLU |
5 |
macro_avg/acc_char |
79.3 |
85.2 |
79.6 |
85.5 |
|
MMLU - Pro |
5 |
macro_avg/em |
53.8 |
61.6 |
58.2 |
62.9 |
|
MATH |
4 |
em_maj1@1 |
41.6 |
53.5 |
50.3 |
61.2 |
代碼 |
MBPP |
3 |
pass@1 |
66.4 |
74.4 |
67.8 |
77.6 |
多語言 |
TydiQA |
1 |
average/f1 |
29.9 |
34.3 |
31.5 |
31.7 |
圖像 |
ChartQA |
0 |
relaxed_accuracy |
不支持多模態 |
|
83.4 |
85.3 |
|
DocVQA |
0 |
anls |
|
|
89.4 |
91.6 |
指令調優模型
類別 |
基準測試 |
樣本數 |
指標 |
Llama 3.3 70B |
Llama 3.1 405B |
Llama 4 Scout |
Llama 4 Maverick |
圖像推理 |
MMMU |
0 |
準確率 |
不支持多模態 |
|
69.4 |
73.4 |
|
MMMU Pro^ |
0 |
準確率 |
|
|
52.2 |
59.6 |
|
MathVista |
0 |
準確率 |
|
|
70.7 |
73.7 |
圖像理解 |
ChartQA |
0 |
relaxed_accuracy |
|
|
88.8 |
90.0 |
|
DocVQA (測試) |
0 |
anls |
|
|
94.4 |
94.4 |
編碼 |
LiveCodeBench (2024年10月1日 - 2025年2月1日) |
0 |
pass@1 |
33.3 |
27.7 |
32.8 |
43.4 |
推理與知識 |
MMLU Pro |
0 |
macro_avg/acc |
68.9 |
73.4 |
74.3 |
80.5 |
|
GPQA Diamond |
0 |
準確率 |
50.5 |
49.0 |
57.2 |
69.8 |
多語言 |
MGSM |
0 |
average/em |
91.1 |
91.6 |
90.6 |
92.3 |
長上下文 |
MTOB (半本書) eng->kgv/kgv->eng |
- |
chrF |
上下文窗口為128K |
|
42.2/36.6 |
54.0/46.4 |
|
MTOB (整本書) eng->kgv/kgv->eng |
- |
chrF |
|
|
39.7/36.3 |
50.8/46.7 |
^MMMU Pro的報告數據是標準任務和視覺任務的平均值
量化
- Llama 4 Scout模型以BF16權重發布,但可以通過即時int4量化適配單個H100 GPU。
- Llama 4 Maverick模型以BF16和FP8量化權重發布。FP8量化權重可以在單個H100 DGX主機上運行,同時保持模型質量。
安全保障
模型級微調
- 微調數據:採用多方面的數據收集方法,結合供應商提供的人工生成數據和合成數據,以降低潛在安全風險。
- 拒絕率:在Llama 3模型的基礎上,著重降低模型對良性提示的拒絕率。
- 語氣:改進模型的拒絕語氣,使其聽起來更自然,避免說教和過度道德化的語言。
- 系統提示:Llama 4是一個更易於控制的模型,通過有效的系統提示可以顯著提高模型性能,減少誤拒絕和模板化語言。
Llama 4系統保護
提供系統級的保護措施,如Llama Guard、Prompt Guard和Code Shield,開發者應將這些保護措施與Llama模型或其他大語言模型一起部署。
評估
- 常見用例評估:評估系統在常見應用場景(如聊天機器人、視覺問答)中的安全風險。
- 能力評估:評估Llama模型在特定能力(如長上下文、多語言、編碼或記憶)方面的漏洞。
紅隊測試
定期進行紅隊測試,通過對抗性提示發現風險,並利用測試結果改進基準測試和安全調優數據集。
關鍵風險
- CBRNE(化學、生物、放射、核和爆炸材料)幫助:評估Llama 4在化學和生物武器擴散方面的風險。
- 兒童安全:通過數據過濾等預訓練方法降低兒童安全風險,並對訓練後的模型進行評估。
- 網絡攻擊支持:評估Llama 4是否有能力支持災難性網絡攻擊場景。
社區
- 安全標準貢獻:積極參與開源聯盟,為安全標準化和透明度做出貢獻。
- 影響贈款計劃:設立Llama影響贈款計劃,支持對社會有益的應用。
- 資源支持:提供輸出報告機制和漏洞賞金計劃,藉助社區力量不斷改進Llama技術。
🔧 技術細節
模型架構
Llama 4模型是自迴歸語言模型,採用混合專家(MoE)架構,並結合早期融合技術實現原生多模態支持。
訓練數據
訓練數據混合了公開可用數據、授權數據以及Meta產品和服務中的信息,包括Instagram和Facebook上的公開帖子以及用戶與Meta AI的交互。
量化技術
Llama 4 Scout模型支持即時int4量化,Llama 4 Maverick模型提供BF16和FP8量化權重。
📄 許可證
本模型使用Llama 4社區許可協議。
⚠️ 重要提示
- Llama 4是一項新技術,使用時存在一定風險。在部署任何應用之前,開發者應針對具體應用進行安全測試和調優。
- 模型的潛在輸出無法提前預測,在某些情況下可能會產生不準確或其他令人反感的響應。
💡 使用建議
- 建議開發者根據具體應用場景構建專用的評估數據集。
- 鼓勵開源社區使用Llama進行研究,並構建解決新興風險的先進工具。