模型概述
模型特點
模型能力
使用案例
🚀 Llama 4模型
Llama 4是Meta推出的原生多模態AI模型,支持文本和多模態交互。它採用混合專家架構,在文本和圖像理解方面表現卓越,為Llama生態開啟了新篇章。
🚀 快速開始
安裝依賴
請確保你已安裝transformers
庫的v4.51.0
版本,若未安裝,可使用以下命令進行升級:
pip install -U transformers
代碼示例
from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch
model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct"
processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(
model_id,
attn_implementation="flex_attention",
device_map="auto",
torch_dtype=torch.bfloat16,
)
url1 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/0052a70beed5bf71b92610a43a52df6d286cd5f3/diffusers/rabbit.jpg"
url2 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/datasets/cat_style_layout.png"
messages = [
{
"role": "user",
"content": [
{"type": "image", "url": url1},
{"type": "image", "url": url2},
{"type": "text", "text": "Can you describe how these two images are similar, and how they differ?"},
]
},
]
inputs = processor.apply_chat_template(
messages,
add_generation_prompt=True,
tokenize=True,
return_dict=True,
return_tensors="pt",
).to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=256,
)
response = processor.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])[0]
print(response)
print(outputs[0])
✨ 主要特性
- 多模態支持:原生支持文本和圖像輸入,可處理多語言文本和圖像理解任務。
- 混合專家架構:採用MoE架構,提升模型在文本和圖像理解方面的性能。
- 高性能表現:在多個基準測試中表現出色,如推理、代碼生成、多語言處理和圖像理解等任務。
- 可調節性強:通過系統提示,可輕鬆調整模型的響應風格和輸出結果。
📦 安裝指南
確保你已安裝transformers
庫的v4.51.0
版本,使用以下命令進行安裝或升級:
pip install -U transformers
💻 使用示例
基礎用法
from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch
model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct"
processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(
model_id,
attn_implementation="flex_attention",
device_map="auto",
torch_dtype=torch.bfloat16,
)
url1 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/0052a70beed5bf71b92610a43a52df6d286cd5f3/diffusers/rabbit.jpg"
url2 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/datasets/cat_style_layout.png"
messages = [
{
"role": "user",
"content": [
{"type": "image", "url": url1},
{"type": "image", "url": url2},
{"type": "text", "text": "Can you describe how these two images are similar, and how they differ?"},
]
},
]
inputs = processor.apply_chat_template(
messages,
add_generation_prompt=True,
tokenize=True,
return_dict=True,
return_tensors="pt",
).to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=256,
)
response = processor.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])[0]
print(response)
print(outputs[0])
📚 詳細文檔
模型信息
屬性 | 詳情 |
---|---|
模型開發者 | Meta |
模型架構 | 自迴歸語言模型,採用混合專家(MoE)架構,支持原生多模態 |
支持語言 | 阿拉伯語、英語、法語、德語、印地語、印尼語、意大利語、葡萄牙語、西班牙語、他加祿語、泰語和越南語 |
模型發佈日期 | 2025年4月5日 |
狀態 | 靜態模型,基於離線數據集訓練。未來可能會根據社區反饋發佈調優版本 |
許可證 | 自定義商業許可證,Llama 4社區許可協議,詳情見此處 |
反饋渠道 | 關於模型的反饋和評論說明見Llama README。更多技術信息和使用方法見此處 |
模型參數
模型名稱 | 訓練數據 | 參數 | 輸入模態 | 輸出模態 | 上下文長度 | 令牌數量 | 知識截止日期 |
---|---|---|---|---|---|---|---|
Llama 4 Scout (17Bx16E) | 公開可用數據、授權數據以及Meta產品和服務中的信息,包括Instagram和Facebook上的公開帖子以及用戶與Meta AI的交互。更多信息見隱私中心 | 激活參數:17B 總參數:109B |
多語言文本和圖像 | 多語言文本和代碼 | 10M | ~40T | 2024年8月 |
Llama 4 Maverick (17Bx128E) | 公開可用數據、授權數據以及Meta產品和服務中的信息,包括Instagram和Facebook上的公開帖子以及用戶與Meta AI的交互。更多信息見隱私中心 | 激活參數:17B 總參數:400B |
多語言文本和圖像 | 多語言文本和代碼 | 1M | ~22T | 2024年8月 |
預期用途
- 預期用例:適用於多語言的商業和研究用途。指令調優模型可用於類助手聊天和視覺推理任務,預訓練模型可用於自然語言生成。在視覺方面,可用於視覺識別、圖像推理、圖像描述和回答關於圖像的一般性問題。Llama 4社區許可證允許這些用例。
- 超出範圍:禁止違反適用法律法規(包括貿易合規法律)的使用方式;禁止違反可接受使用政策和Llama 4社區許可證的其他使用方式;禁止使用模型不支持的語言或功能。
硬件和軟件
- 訓練因素:使用自定義訓練庫、Meta定製的GPU集群和生產基礎設施進行預訓練。微調、量化、標註和評估也在生產基礎設施上進行。
- 訓練能源使用:模型預訓練在H100 - 80GB(TDP為700W)類型的硬件上累計使用了738萬個GPU小時的計算資源。
- 訓練溫室氣體排放:基於位置的估計總溫室氣體排放量為1999噸CO2eq。自2020年以來,Meta在全球運營中保持淨零溫室氣體排放,並使用100%的清潔和可再生能源匹配其電力使用,因此基於市場的總溫室氣體排放量為0噸CO2eq。
訓練數據
- 概述:Llama 4 Scout在約40萬億個令牌的多模態數據上進行預訓練,Llama 4 Maverick在約22萬億個令牌的多模態數據上進行預訓練。數據來源包括公開可用數據、授權數據以及Meta產品和服務中的信息。
- 數據新鮮度:預訓練數據的截止日期為2024年8月。
基準測試
預訓練模型
類別 | 基準測試 | 樣本數 | 指標 | Llama 3.1 70B | Llama 3.1 405B | Llama 4 Scout | Llama 4 Maverick |
---|---|---|---|---|---|---|---|
推理與知識 | MMLU | 5 | macro_avg/acc_char | 79.3 | 85.2 | 79.6 | 85.5 |
MMLU - Pro | 5 | macro_avg/em | 53.8 | 61.6 | 58.2 | 62.9 | |
MATH | 4 | em_maj1@1 | 41.6 | 53.5 | 50.3 | 61.2 | |
代碼 | MBPP | 3 | pass@1 | 66.4 | 74.4 | 67.8 | 77.6 |
多語言 | TydiQA | 1 | average/f1 | 29.9 | 34.3 | 31.5 | 31.7 |
圖像 | ChartQA | 0 | relaxed_accuracy | 不支持多模態 | 83.4 | 85.3 | |
DocVQA | 0 | anls | 89.4 | 91.6 |
指令調優模型
類別 | 基準測試 | 樣本數 | 指標 | Llama 3.3 70B | Llama 3.1 405B | Llama 4 Scout | Llama 4 Maverick |
---|---|---|---|---|---|---|---|
圖像推理 | MMMU | 0 | accuracy | 不支持多模態 | 69.4 | 73.4 | |
MMMU Pro^ | 0 | accuracy | 52.2 | 59.6 | |||
MathVista | 0 | accuracy | 70.7 | 73.7 | |||
圖像理解 | ChartQA | 0 | relaxed_accuracy | 88.8 | 90.0 | ||
DocVQA (test) | 0 | anls | 94.4 | 94.4 | |||
編碼 | LiveCodeBench (10/01/2024 - 02/01/2025) | 0 | pass@1 | 33.3 | 27.7 | 32.8 | 43.4 |
推理與知識 | MMLU Pro | 0 | macro_avg/em | 68.9 | 73.4 | 74.3 | 80.5 |
GPQA Diamond | 0 | accuracy | 50.5 | 49.0 | 57.2 | 69.8 | |
多語言 | MGSM | 0 | average/em | 91.1 | 91.6 | 90.6 | 92.3 |
長上下文 | MTOB (half book) eng->kgv/kgv->eng | - | chrF | 上下文窗口為128K | 42.2/36.6 | 54.0/46.4 | |
MTOB (full book) eng->kgv/kgv->eng | - | chrF | 39.7/36.3 | 50.8/46.7 |
^MMMU Pro的報告數據為標準任務和視覺任務的平均值
量化
- Llama 4 Scout模型以BF16權重發布,可通過即時int4量化適配單個H100 GPU。
- Llama 4 Maverick模型以BF16和FP8量化權重發布。FP8量化權重可在單個H100 DGX主機上運行,同時保持模型質量。我們還提供了即時int4量化代碼,以減少性能損失。
安全保障
模型級微調
- 微調數據:採用多方面的數據收集方法,結合人工生成數據和合成數據,通過LLM分類器選擇高質量的提示和響應,提高數據質量。
- 拒絕率:在Llama 3的基礎上,降低模型對良性提示的拒絕率,將邊界和對抗性提示納入安全數據策略,並調整安全數據響應以遵循語氣指南。
- 語氣:改進拒絕語氣,使模型響應更自然,去除說教和過度道德化的語言,修正格式問題。
- 系統提示:Llama 4更易於控制,通過有效的系統提示可減少誤拒絕和模板化語言,提高對話性和格式使用的準確性。
Llama 4系統保護
大型語言模型應與其他防護措施結合部署。我們提供了系統級保護工具,如Llama Guard、Prompt Guard和Code Shield,開發者可將其與Llama模型或其他LLM一起使用。所有參考實現演示默認包含這些保護措施。
評估
- 常見用例評估:評估常見應用場景(如聊天機器人、視覺問答)的安全風險,構建對抗性評估數據集,評估Llama模型和Llama Guard 3組成的系統。
- 能力評估:評估模型特定能力的漏洞,構建專門的基準測試,如長上下文、多語言、編碼和記憶等。
紅隊測試
定期進行紅隊測試,通過對抗性提示發現風險,與專家合作確定紅隊目標,改進基準測試和安全調優數據集。
關鍵風險
- CBRNE(化學、生物、放射、核和爆炸物)幫助性:評估Llama 4在化學和生物武器擴散方面的風險,進行額外的紅隊測試和內容政策違規評估。
- 兒童安全:在預訓練階段進行數據過濾,評估模型在兒童安全方面的風險,擴展評估基準以覆蓋多圖像和多語言能力。
- 網絡攻擊支持:評估Llama 4是否會導致災難性網絡威脅,進行威脅建模,測試模型在自動化網絡攻擊、識別和利用安全漏洞以及自動化有害工作流方面的能力。
社區
- 開放社區合作:積極參與開放聯盟,如AI聯盟、AI合作組織和MLCommons,推動安全標準化和透明度。鼓勵社區採用MLCommons概念驗證評估分類法,促進安全和內容評估的協作和透明度。
- Llama影響贈款計劃:設立Llama影響贈款計劃,支持在教育、氣候和開放創新領域的應用。
- 社區資源:提供輸出報告機制和漏洞賞金計劃,藉助社區力量改進Llama技術。
🔧 技術細節
訓練因素
使用自定義訓練庫、Meta定製的GPU集群和生產基礎設施進行預訓練。微調、量化、標註和評估也在生產基礎設施上進行。
訓練能源使用
模型預訓練在H100 - 80GB(TDP為700W)類型的硬件上累計使用了738萬個GPU小時的計算資源。訓練時間為每個模型訓練所需的總GPU時間,功耗為每個GPU設備的峰值功率容量,已考慮電源使用效率。
訓練溫室氣體排放
基於位置的估計總溫室氣體排放量為1999噸CO2eq。自2020年以來,Meta在全球運營中保持淨零溫室氣體排放,並使用100%的清潔和可再生能源匹配其電力使用,因此基於市場的總溫室氣體排放量為0噸CO2eq。
量化
Llama 4 Scout模型以BF16權重發布,可通過即時int4量化適配單個H100 GPU。Llama 4 Maverick模型以BF16和FP8量化權重發布。FP8量化權重可在單個H100 DGX主機上運行,同時保持模型質量。我們還提供了即時int4量化代碼,以減少性能損失。
📄 許可證
本項目使用自定義商業許可證,Llama 4社區許可協議,詳情見此處。
許可證協議摘要
- 許可權利和再分發:授予非排他性、全球性、不可轉讓和免版稅的有限許可,允許使用、複製、分發、修改Llama材料。再分發時需提供許可證副本,並在相關網站、用戶界面等位置顯示“Built with Llama”。
- 額外商業條款:若產品或服務的月活躍用戶數超過7億,需向Meta申請許可證。
- 免責聲明:除非適用法律要求,Llama材料按“原樣”提供,Meta不提供任何形式的保證。
- 責任限制:Meta及其關聯方不對任何間接、特殊、後果性損害承擔責任。
- 知識產權:不授予商標許可,開發者可在符合規定的情況下使用“Llama”商標。開發者對自己創建的衍生作品和修改擁有所有權。
- 期限和終止:協議自接受或訪問Llama材料時生效,Meta可在開發者違反協議條款時終止協議。協議終止後,開發者需刪除並停止使用Llama材料。
- 適用法律和管轄權:協議受加利福尼亞州法律管轄,相關糾紛由加利福尼亞州法院專屬管轄。
⚠️ 重要提示
- Llama 4是新技術,測試無法覆蓋所有場景,模型可能產生不準確或令人反感的響應。開發者在部署應用前應進行安全測試和調優。
- 本4位模型目前僅適用於Unsloth!更多版本(包括4位和16位格式)見我們的集合。
💡 使用建議
- 參考可用資源,如開發者使用指南、Llama保護解決方案和其他文檔,瞭解更多信息。
- 為特定用例構建專門的評估數據集,以評估應用的安全性。
- 遵循系統提示的最佳實踐,調整模型的響應風格和輸出結果。









