模型概述
模型特點
模型能力
使用案例
🚀 Llama 4模型
Llama 4是一系列原生多模態AI模型,能夠提供文本和多模態體驗。這些模型採用混合專家架構,在文本和圖像理解方面具有行業領先的性能。
🚀 快速開始
安裝依賴
請確保你已安裝 transformers v4.51.0
,或者使用以下命令進行升級:
pip install -U transformers
代碼示例
from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch
model_id = "meta-llama/Llama-4-Scout-17B-16E-Instruct"
processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(
model_id,
attn_implementation="flex_attention",
device_map="auto",
torch_dtype=torch.bfloat16,
)
url1 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/0052a70beed5bf71b92610a43a52df6d286cd5f3/diffusers/rabbit.jpg"
url2 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/datasets/cat_style_layout.png"
messages = [
{
"role": "user",
"content": [
{"type": "image", "url": url1},
{"type": "image", "url": url2},
{"type": "text", "text": "Can you describe how these two images are similar, and how they differ?"},
]
},
]
inputs = processor.apply_chat_template(
messages,
add_generation_prompt=True,
tokenize=True,
return_dict=True,
return_tensors="pt",
).to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=256,
)
response = processor.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])[0]
print(response)
print(outputs[0])
✨ 主要特性
- 多模態能力:支持文本和圖像的多模態輸入和輸出,可用於視覺識別、圖像推理、圖像描述等任務。
- 混合專家架構:採用混合專家(MoE)架構,在文本和圖像理解方面表現出色。
- 多語言支持:支持多種語言,可用於商業和研究領域。
- 高效模型:推出了Llama 4 Scout和Llama 4 Maverick兩個高效模型。
📦 安裝指南
請確保你已安裝 transformers v4.51.0
,或者使用以下命令進行升級:
pip install -U transformers
💻 使用示例
基礎用法
from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch
model_id = "meta-llama/Llama-4-Scout-17B-16E-Instruct"
processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(
model_id,
attn_implementation="flex_attention",
device_map="auto",
torch_dtype=torch.bfloat16,
)
url1 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/0052a70beed5bf71b92610a43a52df6d286cd5f3/diffusers/rabbit.jpg"
url2 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/datasets/cat_style_layout.png"
messages = [
{
"role": "user",
"content": [
{"type": "image", "url": url1},
{"type": "image", "url": url2},
{"type": "text", "text": "Can you describe how these two images are similar, and how they differ?"},
]
},
]
inputs = processor.apply_chat_template(
messages,
add_generation_prompt=True,
tokenize=True,
return_dict=True,
return_tensors="pt",
).to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=256,
)
response = processor.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])[0]
print(response)
print(outputs[0])
📚 詳細文檔
模型信息
屬性 | 詳情 |
---|---|
模型開發者 | Meta |
模型架構 | 自迴歸語言模型,採用混合專家(MoE)架構,支持原生多模態的早期融合 |
支持語言 | 阿拉伯語、英語、法語、德語、印地語、印尼語、意大利語、葡萄牙語、西班牙語、他加祿語、泰語和越南語 |
模型發佈日期 | 2025年4月5日 |
狀態 | 靜態模型,基於離線數據集訓練。未來可能會發布調優後的版本 |
許可證 | Llama 4社區許可證,詳情見此處 |
反饋渠道 | 關於模型的反饋或評論說明見Llama README。更多技術信息見此處 |
模型參數
模型名稱 | 訓練數據 | 參數 | 輸入模態 | 輸出模態 | 上下文長度 | 令牌數量 | 知識截止日期 |
---|---|---|---|---|---|---|---|
Llama 4 Scout (17Bx16E) | 公開可用數據、授權數據以及Meta產品和服務的信息,包括Instagram和Facebook的公開帖子以及用戶與Meta AI的交互。詳情見隱私中心 | 激活參數:170億 總參數:1090億 |
多語言文本和圖像 | 多語言文本和代碼 | 10M | ~40T | 2024年8月 |
Llama 4 Maverick (17Bx128E) | 公開可用數據、授權數據以及Meta產品和服務的信息,包括Instagram和Facebook的公開帖子以及用戶與Meta AI的交互。詳情見隱私中心 | 激活參數:170億 總參數:4000億 |
多語言文本和圖像 | 多語言文本和代碼 | 1M | ~22T | 2024年8月 |
預期用途
- 預期用例:Llama 4適用於多語言的商業和研究用途。指令調優模型適用於類似助手的聊天和視覺推理任務,而預訓練模型可用於自然語言生成。在視覺方面,Llama 4模型還針對視覺識別、圖像推理、圖像描述和回答關於圖像的一般問題進行了優化。Llama 4模型集合還支持利用其模型的輸出來改進其他模型,包括合成數據生成和蒸餾。Llama 4社區許可證允許這些用例。
- 超出範圍的使用:以任何違反適用法律法規(包括貿易合規法律)的方式使用;以可接受使用政策和Llama 4社區許可證禁止的任何其他方式使用;在本模型卡片中未明確提及支持的語言或功能中使用。
硬件和軟件
- 訓練因素:使用自定義訓練庫、Meta的自定義GPU集群和生產基礎設施進行預訓練。微調、量化、標註和評估也在生產基礎設施上進行。
- 訓練能源使用:模型預訓練在H100 - 80GB(TDP為700W)類型的硬件上累計使用了738萬個GPU小時的計算資源。訓練時間是每個模型訓練所需的總GPU時間,功耗是每個GPU設備的峰值功率容量,並根據功率使用效率進行了調整。
- 訓練溫室氣體排放:基於位置的估計總溫室氣體排放量為1999噸CO2eq。自2020年以來,Meta在全球運營中保持淨零溫室氣體排放,並以清潔能源和可再生能源滿足其100%的電力使用;因此,基於市場的訓練總溫室氣體排放量為0噸CO2eq。
模型名稱 | 訓練時間(GPU小時) | 訓練功耗(W) | 基於位置的訓練溫室氣體排放量(噸CO2eq) | 基於市場的訓練溫室氣體排放量(噸CO2eq) |
---|---|---|---|---|
Llama 4 Scout | 500萬 | 700 | 1354 | 0 |
Llama 4 Maverick | 238萬 | 700 | 645 | 0 |
總計 | 738萬 | - | 1999 | 0 |
訓練數據
- 概述:Llama 4 Scout在約40萬億個令牌的多模態數據上進行預訓練,Llama 4 Maverick在約22萬億個令牌的多模態數據上進行預訓練。這些數據來自公開可用數據、授權數據以及Meta產品和服務的信息,包括Instagram和Facebook的公開帖子以及用戶與Meta AI的交互。
- 數據新鮮度:預訓練數據的截止日期為2024年8月。
基準測試
預訓練模型
類別 | 基準測試 | 樣本數 | 指標 | Llama 3.1 70B | Llama 3.1 405B | Llama 4 Scout | Llama 4 Maverick |
---|---|---|---|---|---|---|---|
推理與知識 | MMLU | 5 | macro_avg/acc_char | 79.3 | 85.2 | 79.6 | 85.5 |
MMLU - Pro | 5 | macro_avg/em | 53.8 | 61.6 | 58.2 | 62.9 | |
MATH | 4 | em_maj1@1 | 41.6 | 53.5 | 50.3 | 61.2 | |
代碼 | MBPP | 3 | pass@1 | 66.4 | 74.4 | 67.8 | 77.6 |
多語言 | TydiQA | 1 | average/f1 | 29.9 | 34.3 | 31.5 | 31.7 |
圖像 | ChartQA | 0 | relaxed_accuracy | 不支持多模態 | 83.4 | 85.3 | |
DocVQA | 0 | anls | 89.4 | 91.6 |
指令調優模型
類別 | 基準測試 | 樣本數 | 指標 | Llama 3.3 70B | Llama 3.1 405B | Llama 4 Scout | Llama 4 Maverick |
---|---|---|---|---|---|---|---|
圖像推理 | MMMU | 0 | 準確率 | 不支持多模態 | 69.4 | 73.4 | |
MMMU Pro^ | 0 | 準確率 | 52.2 | 59.6 | |||
MathVista | 0 | 準確率 | 70.7 | 73.7 | |||
圖像理解 | ChartQA | 0 | relaxed_accuracy | 88.8 | 90.0 | ||
DocVQA (測試) | 0 | anls | 94.4 | 94.4 | |||
編碼 | LiveCodeBench (2024年10月1日 - 2025年2月1日) | 0 | pass@1 | 33.3 | 27.7 | 32.8 | 43.4 |
推理與知識 | MMLU Pro | 0 | macro_avg/acc | 68.9 | 73.4 | 74.3 | 80.5 |
GPQA Diamond | 0 | 準確率 | 50.5 | 49.0 | 57.2 | 69.8 | |
多語言 | MGSM | 0 | average/em | 91.1 | 91.6 | 90.6 | 92.3 |
長上下文 | MTOB (半本書) eng->kgv/kgv->eng | - | chrF | 上下文窗口為128K | 42.2/36.6 | 54.0/46.4 | |
MTOB (整本書) eng->kgv/kgv->eng | - | chrF | 39.7/36.3 | 50.8/46.7 |
^MMMU Pro的報告數字是標準任務和視覺任務的平均值
量化
- Llama 4 Scout模型以BF16權重發布,但可以通過即時int4量化適配單個H100 GPU。
- Llama 4 Maverick模型以BF16和FP8量化權重發布。FP8量化權重可以在單個H100 DGX主機上運行,同時保持質量。我們還提供了即時int4量化的代碼,以最小化性能下降。
安全保障
模型級微調
- 微調數據:採用多方面的數據收集方法,將供應商提供的人工生成數據與合成數據相結合,以降低潛在的安全風險。開發了許多基於大語言模型(LLM)的分類器,以精心選擇高質量的提示和響應,加強數據質量控制。
- 拒絕率:在Llama 3模型的基礎上,著重降低Llama 4模型對良性提示的拒絕率。在安全數據策略中包括了邊界提示和對抗性提示,並修改了安全數據響應以遵循語氣指南。
- 語氣:擴展了Llama 3模型在拒絕語氣方面的工作,使模型聽起來更加自然。目標是去除說教和過度道德化的語言,並糾正格式問題,包括正確使用標題、列表、表格等。
- 系統提示:Llama 4是一個更易於引導的模型,意味著可以輕鬆調整響應以滿足特定的開發者需求。有效的系統提示可以顯著提高大語言模型的性能。特別是,使用系統提示可以有效減少錯誤拒絕和大語言模型中常見的模板化或“說教式”語言模式。它們還可以提高對話性和適當格式的使用。
系統保護
提供系統級的保護措施,如Llama Guard、Prompt Guard和Code Shield,開發者應將這些措施與Llama模型或其他大語言模型一起部署。所有參考實現演示默認包含這些安全保障措施,以便開發者可以直接受益於系統級安全。
評估
- 常見用例評估:評估Llama模型在常見用例以及特定能力方面的表現。常見用例評估衡量了最常見構建應用程序(包括聊天機器人、視覺問答)的系統安全風險。構建了專門的對抗性評估數據集,並評估了由Llama模型和Llama Guard 3組成的系統,以過濾輸入提示和輸出響應。建議為特定用例構建專門的評估數據集。
- 能力評估:衡量Llama模型在特定能力方面的漏洞,為此設計了專門的基準測試,包括長上下文、多語言、編碼或記憶。
紅隊測試
定期進行紅隊測試,目標是通過對抗性提示發現風險,並利用這些經驗教訓改進基準測試和安全調優數據集。與關鍵風險領域的專家合作,瞭解模型可能對社會造成的意外危害。根據這些對話,為紅隊制定一組對抗性目標,如提取有害信息或重新編程模型以採取潛在有害的行為。紅隊成員包括網絡安全、對抗性機器學習和完整性方面的專家,以及具有特定地理市場完整性問題背景的多語言內容專家。
關鍵風險
- CBRNE(化學、生物、放射、核和爆炸材料)幫助性:評估Llama 4在化學和生物武器擴散方面的風險,應用專家設計的和其他有針對性的評估,以確定使用Llama 4是否會顯著增加惡意行為者使用此類武器進行攻擊的能力。還進行了額外的紅隊測試和評估,以檢查是否違反了與該風險領域相關的內容政策。
- 兒童安全:在模型中使用數據過濾等預訓練方法作為減輕兒童安全風險的第一步。由專家團隊評估訓練後模型在兒童安全方面的風險,以指導額外的模型微調和平深入的紅隊測試。還擴展了兒童安全評估基準,以涵蓋Llama 4的多圖像和多語言能力。
- 網絡攻擊啟用:進行網絡評估,調查Llama 4是否有足夠的能力導致災難性的威脅場景。進行威脅建模練習,確定在關鍵攻擊向量方面自動化操作或增強人類能力所需的特定模型能力,包括技能水平和速度。然後確定並開發針對這些能力的挑戰,以測試Llama 4和同類模型。具體而言,重點評估Llama 4自動化網絡攻擊、識別和利用安全漏洞以及自動化有害工作流程的能力。總體而言,發現Llama 4模型不會引入可能導致災難性網絡後果的風險。
社區
積極參與開放聯盟,包括AI聯盟、AI合作組織和MLCommons,為安全標準化和透明度做出貢獻。鼓勵社區採用MLCommons概念驗證評估等分類法,以促進安全和內容評估的協作和透明度。信任工具已開源,供社區使用,並廣泛分發到包括雲服務提供商在內的生態系統合作伙伴。鼓勵社區為Github倉庫做出貢獻。
設立了Llama影響贈款計劃,以識別和支持Meta的Llama模型在教育、氣候和開放創新三個類別中對社會有益的最有吸引力的應用。數百份申請中的20名決賽選手名單見此處。
還建立了一套資源,包括輸出報告機制和漏洞賞金計劃,以在社區的幫助下不斷改進Llama技術。
注意事項和限制
我們的AI基於言論自由的價值觀,幫助人們使用我們的技術進行探索、辯論和創新。尊重人們的自主權,使他們能夠選擇如何體驗、交互和構建AI。我們的AI促進思想的開放交流。
Llama 4旨在為所有人服務,並適用於廣泛的用例。因此,它設計為對不同背景、經驗和觀點的人都可訪問。Llama 4以用戶的實際情況和需求為出發點,不插入不必要的判斷,同時認識到即使在某些情況下可能存在問題的內容,在其他情況下也可能有價值。它尊重所有用戶的自主權,特別是在推動創新和進步的自由思想和表達價值觀方面。
Llama 4是一項新技術,與任何新技術一樣,其使用存在風險。到目前為止進行的測試尚未涵蓋,也不可能涵蓋所有場景。因此,與所有大語言模型一樣,Llama 4的潛在輸出無法提前預測,模型在某些情況下可能會對用戶提示產生不準確或其他令人反感的響應。因此,在部署Llama 4模型的任何應用程序之前,開發者應針對其特定應用進行安全測試和調優。我們還鼓勵開源社區將Llama用於研究和構建解決新興風險的先進工具。請參考可用資源,包括我們的開發者使用指南:AI保護、Llama保護解決方案和其他資源以瞭解更多信息。
📄 許可證
本項目採用Llama 4社區許可證,詳情見此處。









