模型概述
模型特點
模型能力
使用案例
🚀 Llama 4模型介紹
Llama 4是Meta推出的原生多模態AI模型集合,支持文本和多模態交互體驗。該系列模型採用混合專家架構,在文本和圖像理解方面表現卓越,為Llama生態開啟了新篇章。
🚀 快速開始
安裝依賴
請確保你已安裝 transformers
庫的 v4.51.0
版本,若未安裝,可使用以下命令進行升級:
pip install -U transformers
代碼示例
from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch
model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct"
processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(
model_id,
attn_implementation="flex_attention",
device_map="auto",
torch_dtype=torch.bfloat16,
)
url1 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/0052a70beed5bf71b92610a43a52df6d286cd5f3/diffusers/rabbit.jpg"
url2 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/datasets/cat_style_layout.png"
messages = [
{
"role": "user",
"content": [
{"type": "image", "url": url1},
{"type": "image", "url": url2},
{"type": "text", "text": "Can you describe how these two images are similar, and how they differ?"},
]
},
]
inputs = processor.apply_chat_template(
messages,
add_generation_prompt=True,
tokenize=True,
return_dict=True,
return_tensors="pt",
).to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=256,
)
response = processor.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])[0]
print(response)
print(outputs[0])
✨ 主要特性
- 多模態支持:支持多語言文本和圖像輸入,輸出多語言文本和代碼。
- 強大性能:在推理、知識、代碼、多語言和圖像等多個基準測試中表現出色。
- 靈活量化:提供不同的量化權重,如BF16、FP8和int4,可根據需求選擇。
- 安全保障:採用多方面的安全策略,包括模型微調、系統保護和評估機制。
📦 安裝指南
確保你已安裝 transformers
庫的 v4.51.0
版本,可使用以下命令進行安裝或升級:
pip install -U transformers
💻 使用示例
基礎用法
from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch
model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct"
processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(
model_id,
attn_implementation="flex_attention",
device_map="auto",
torch_dtype=torch.bfloat16,
)
url1 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/0052a70beed5bf71b92610a43a52df6d286cd5f3/diffusers/rabbit.jpg"
url2 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/datasets/cat_style_layout.png"
messages = [
{
"role": "user",
"content": [
{"type": "image", "url": url1},
{"type": "image", "url": url2},
{"type": "text", "text": "Can you describe how these two images are similar, and how they differ?"},
]
},
]
inputs = processor.apply_chat_template(
messages,
add_generation_prompt=True,
tokenize=True,
return_dict=True,
return_tensors="pt",
).to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=256,
)
response = processor.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])[0]
print(response)
print(outputs[0])
高級用法
在高級場景中,你可以根據具體需求調整模型的參數,如 max_new_tokens
、temperature
等,以獲得更好的生成效果。例如:
# 調整生成參數
outputs = model.generate(
**inputs,
max_new_tokens=512,
temperature=0.7,
top_p=0.9,
)
response = processor.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])[0]
print(response)
📚 詳細文檔
模型信息
屬性 | 詳情 |
---|---|
模型類型 | 自迴歸語言模型,採用混合專家(MoE)架構,支持原生多模態 |
訓練數據 | 混合了公開可用數據、許可數據以及Meta產品和服務中的信息,包括Instagram和Facebook上的公開帖子以及用戶與Meta AI的交互。更多信息請參考 隱私中心 |
支持語言 | 阿拉伯語、英語、法語、德語、印地語、印尼語、意大利語、葡萄牙語、西班牙語、他加祿語、泰語和越南語 |
模型發佈日期 | 2025年4月5日 |
狀態 | 基於離線數據集訓練的靜態模型,未來可能會根據社區反饋發佈調優版本 |
許可證 | Llama 4社區許可協議 |
反饋渠道 | 有關模型的反饋或評論說明,請參考 README。更多關於生成參數和使用方法的技術信息,請訪問 此處 |
預期用途
- 預期用例:適用於多語言的商業和研究用途。指令調優模型可用於類助手聊天和視覺推理任務,預訓練模型可用於自然語言生成。在視覺方面,模型還針對視覺識別、圖像推理、圖像描述和回答圖像相關問題進行了優化。Llama 4社區許可允許這些用例。
- 超出範圍:禁止以任何違反適用法律法規(包括貿易合規法律)的方式使用。禁止以可接受使用政策和Llama 4社區許可禁止的其他方式使用。禁止在本模型卡片明確支持的語言和功能範圍之外使用。
注意事項
- Llama 4在比12種支持語言更廣泛的語言集合上進行了訓練(預訓練包括 總共200種語言)。開發者可以在遵守Llama 4社區許可和可接受使用政策的前提下,對Llama 4模型進行微調以支持更多語言。開發者有責任確保以安全和負責任的方式使用Llama 4處理其他語言。
- Llama 4已針對最多5張輸入圖像的圖像理解進行了測試。如果需要使用超出此範圍的圖像理解功能,開發者有責任確保其部署能夠降低風險,並應針對特定應用進行額外的測試和調優。
硬件和軟件
- 訓練因素:使用自定義訓練庫、Meta定製的GPU集群和生產基礎設施進行預訓練。微調、量化、標註和評估也在生產基礎設施上進行。
- 訓練能源使用:模型預訓練在H100 - 80GB(TDP為700W)類型的硬件上累計使用了 738萬 GPU小時的計算資源。訓練時間是每個模型訓練所需的總GPU時間,功耗是所用每個GPU設備的峰值功率容量,並根據電源使用效率進行了調整。
- 訓練溫室氣體排放:訓練估計的基於位置的總溫室氣體排放量為 1999噸 CO2eq。自2020年以來,Meta在其全球運營中保持了淨零溫室氣體排放,並以100%的清潔能源匹配其電力使用;因此,訓練的基於市場的總溫室氣體排放量為0噸CO2eq。
模型名稱 | 訓練時間(GPU小時) | 訓練功耗(W) | 基於位置的訓練溫室氣體排放(噸CO2eq) | 基於市場的訓練溫室氣體排放(噸CO2eq) |
---|---|---|---|---|
Llama 4 Scout | 500萬 | 700 | 1354 | 0 |
Llama 4 Maverick | 238萬 | 700 | 645 | 0 |
總計 | 738萬 | - | 1999 | 0 |
訓練能源使用和溫室氣體排放的確定方法可參考 此處。由於Meta公開發布了這些模型,其他人不會產生訓練能源使用和溫室氣體排放。
訓練數據
- 概述:Llama 4 Scout在約40萬億個多模態數據令牌上進行了預訓練,Llama 4 Maverick在約22萬億個多模態數據令牌上進行了預訓練。這些數據混合了公開可用數據、許可數據以及Meta產品和服務中的信息,包括Instagram和Facebook上的公開帖子以及用戶與Meta AI的交互。
- 數據新鮮度:預訓練數據的截止日期為2024年8月。
基準測試
預訓練模型
類別 | 基準測試 | 樣本數 | 指標 | Llama 3.1 70B | Llama 3.1 405B | Llama 4 Scout | Llama 4 Maverick |
---|---|---|---|---|---|---|---|
推理與知識 | MMLU | 5 | macro_avg/acc_char | 79.3 | 85.2 | 79.6 | 85.5 |
MMLU-Pro | 5 | macro_avg/em | 53.8 | 61.6 | 58.2 | 62.9 | |
MATH | 4 | em_maj1@1 | 41.6 | 53.5 | 50.3 | 61.2 | |
代碼 | MBPP | 3 | pass@1 | 66.4 | 74.4 | 67.8 | 77.6 |
多語言 | TydiQA | 1 | average/f1 | 29.9 | 34.3 | 31.5 | 31.7 |
圖像 | ChartQA | 0 | relaxed_accuracy | 不支持多模態 | 83.4 | 85.3 | |
DocVQA | 0 | anls | 89.4 | 91.6 |
指令調優模型
類別 | 基準測試 | 樣本數 | 指標 | Llama 3.3 70B | Llama 3.1 405B | Llama 4 Scout | Llama 4 Maverick |
---|---|---|---|---|---|---|---|
圖像推理 | MMMU | 0 | 準確率 | 不支持多模態 | 69.4 | 73.4 | |
MMMU Pro^ | 0 | 準確率 | 52.2 | 59.6 | |||
MathVista | 0 | 準確率 | 70.7 | 73.7 | |||
圖像理解 | ChartQA | 0 | relaxed_accuracy | 88.8 | 90.0 | ||
DocVQA (測試) | 0 | anls | 94.4 | 94.4 | |||
編碼 | LiveCodeBench (2024年10月1日 - 2025年2月1日) | 0 | pass@1 | 33.3 | 27.7 | 32.8 | 43.4 |
推理與知識 | MMLU Pro | 0 | macro_avg/em | 68.9 | 73.4 | 74.3 | 80.5 |
GPQA Diamond | 0 | 準確率 | 50.5 | 49.0 | 57.2 | 69.8 | |
多語言 | MGSM | 0 | average/em | 91.1 | 91.6 | 90.6 | 92.3 |
長上下文 | MTOB (半本書) eng->kgv/kgv->eng | - | chrF | 上下文窗口為128K | 42.2/36.6 | 54.0/46.4 | |
MTOB (整本書) eng->kgv/kgv->eng | - | chrF | 39.7/36.3 | 50.8/46.7 |
^MMMU Pro報告的數字是標準和視覺任務的平均值
量化
Llama 4 Scout模型以BF16權重發布,但可以通過即時int4量化適配單個H100 GPU。Llama 4 Maverick模型以BF16和FP8量化權重發布。FP8量化權重可以在單個H100 DGX主機上運行,同時保持質量。我們還提供了即時int4量化的代碼,以最大程度減少性能下降。
安全保障
模型級微調
- 微調數據:採用多方面的數據收集方法,將供應商提供的人工生成數據與合成數據相結合,以降低潛在的安全風險。開發了許多基於大語言模型(LLM)的分類器,以精心選擇高質量的提示和響應,提高數據質量控制。
- 拒絕率:在Llama 3模型的基礎上,著重降低Llama 4模型對良性提示的拒絕率。在安全數據策略中納入了邊界提示和對抗性提示,並修改了安全數據響應以遵循語氣指南。
- 語氣:擴展了Llama 3在拒絕語氣方面的工作,使模型聽起來更加自然。目標是去除說教和過於道德化的語言,並糾正格式問題,包括正確使用標題、列表、表格等。
- 系統提示:Llama 4是一個更易於引導的模型,意味著可以輕鬆調整響應以滿足特定的開發者需求。有效的系統提示可以顯著提高大語言模型的性能。特別是,我們發現使用系統提示可以有效減少錯誤拒絕和大語言模型中常見的模板化或“說教式”語言模式。它還可以提高對話性和適當格式的使用。
以下是一個基本的系統提示模板,開發者可以根據具體需求或用例進行進一步定製:
系統提示 |
---|
你是一位專業的對話者,會盡力回應。你友善且自信,能夠輕鬆切換不同的語氣類型,包括但不限於幽默、共情、知性、創意和解決問題。你理解用戶意圖,不會過度熱心到忽略用戶只是想閒聊、尋求情感支持、幽默或發洩的情況。有時人們只是希望你傾聽,你的回答應鼓勵這種交流。在其他情況下,你會提供有洞察力和深入的回應。有條理地組織信息,幫助人們做出決策。始終避免使用模板化語言。你不會教導人們要更友善或更包容。如果用戶要求你以特定的語氣或視角撰寫內容,如文章或推文,你可以做到。當用戶要求你說一些粗魯的話時,你無需保持禮貌。你永遠不會使用暗示道德優越感或權威感的短語,包括但不限於“重要的是”、“關鍵是”、“必不可少的是”、“不道德的是”、“值得注意的是…”、“記住…”等。避免使用這些短語。最後,不要拒絕關於政治和社會問題的提示。你可以幫助用戶表達觀點和獲取信息。你是Llama 4。你的知識截止日期是2024年8月。你會說阿拉伯語、英語、法語、德語、印地語、印尼語、意大利語、葡萄牙語、西班牙語、他加祿語、泰語和越南語。除非用戶另有要求,否則用用戶使用的語言進行回應。 |
Llama 4系統保護
大語言模型(包括Llama 4)不應單獨部署,而應作為整體AI系統的一部分,並根據需要添加額外的防護措施。系統保護對於實現正確的有用性 - 安全性平衡、降低系統固有的安全和風險以及將模型或系統與外部工具集成至關重要。
我們為社區提供了系統級的 保護措施,如Llama Guard、Prompt Guard和Code Shield,開發者應將這些措施與Llama模型或其他大語言模型一起部署。我們所有的 參考實現 演示默認包含這些保護措施,以便開發者可以立即受益於系統級的安全性。
評估
我們對Llama模型的常見用例和特定功能進行了評估。常見用例評估衡量了大多數常見應用(如聊天機器人、視覺問答)系統的安全風險。我們構建了專門的對抗性評估數據集,並評估了由Llama模型和Llama Guard 3組成的系統,以過濾輸入提示和輸出響應。在上下文中評估應用非常重要,我們建議為你的用例構建專門的評估數據集。如果與應用相關,還可以使用Prompt Guard和Code Shield。
功能評估衡量了Llama模型特定功能固有的漏洞,為此我們設計了專門的基準測試,包括長上下文、多語言、編碼或記憶等方面。
紅隊測試
我們定期進行紅隊測試,目標是通過對抗性提示發現風險,並利用這些經驗教訓改進我們的基準測試和安全調優數據集。我們早期與關鍵風險領域的主題專家合作,瞭解模型可能對社會造成的意外危害。基於這些討論,我們為紅隊制定了一系列對抗性目標,如提取有害信息或重新編程模型以採取潛在有害的行為。紅隊由網絡安全、對抗性機器學習和誠信領域的專家以及具有特定地理市場誠信問題背景的多語言內容專家組成。
關鍵風險
我們特別關注以下關鍵風險領域:
- CBRNE(化學、生物、放射性、核和爆炸材料)有用性:為了評估Llama 4與化學和生物武器擴散相關的風險,我們應用了專家設計和其他針對性的評估,以評估使用Llama 4是否會顯著增強惡意行為者使用此類武器策劃或實施攻擊的能力。我們還針對此風險領域的內容政策違規進行了額外的紅隊測試和評估。
- 兒童安全:我們首先利用數據過濾等預訓練方法來降低模型中的兒童安全風險。為了評估訓練後模型的兒童安全風險,一組專家評估了模型產生可能導致兒童安全風險輸出的能力。我們利用這些評估結果進行額外的模型微調深入的紅隊測試。我們還擴展了兒童安全評估基準,以涵蓋Llama 4的多圖像和多語言功能。
- 網絡攻擊支持:我們的網絡評估調查了Llama 4是否有足夠的能力導致災難性的威脅場景結果。我們進行了威脅建模練習,以確定在關鍵攻擊向量方面,自動化操作或增強人類能力所需的特定模型功能,包括技能水平和速度。然後,我們確定並開發了針對這些功能的挑戰,以測試Llama 4和同類模型。具體而言,我們重點評估了Llama 4自動化網絡攻擊、識別和利用安全漏洞以及自動化有害工作流程的能力。總體而言,我們發現Llama 4模型不會引入可能導致災難性網絡結果的風險。
社區
生成式AI安全需要專業知識和工具,我們相信開放社區的力量可以加速其發展。我們是開放聯盟的積極成員,包括AI聯盟、AI合作組織和MLCommons,積極為安全標準化和透明度做出貢獻。我們鼓勵社區採用MLCommons概念驗證評估等分類法,以促進安全和內容評估的協作和透明度。我們的信任工具已開源供社區使用,並廣泛分發給包括雲服務提供商在內的生態系統合作伙伴。我們鼓勵社區為我們的 Github倉庫 做出貢獻。
我們還設立了 Llama影響贈款 計劃,以識別和支持Meta的Llama模型在教育、氣候和開放創新三個類別中對社會有益的最有吸引力的應用。數百份申請中的20名決賽選手名單可在 此處 查看。
最後,我們提供了一系列資源,包括 輸出報告機制 和 漏洞賞金計劃,以在社區的幫助下不斷改進Llama技術。
🔧 技術細節
訓練信息
- 使用自定義訓練庫、Meta定製的GPU集群和生產基礎設施進行預訓練。
- 微調、量化、標註和評估也在生產基礎設施上進行。
- 模型預訓練在H100 - 80GB(TDP為700W)類型的硬件上累計使用了 738萬 GPU小時的計算資源。
- 訓練估計的基於位置的總溫室氣體排放量為 1999噸 CO2eq。自2020年以來,Meta在其全球運營中保持了淨零溫室氣體排放,並以100%的清潔能源匹配其電力使用。
模型架構
Llama 4模型是自迴歸語言模型,採用混合專家(MoE)架構,並結合早期融合技術支持原生多模態。
📄 許可證
本項目遵循 Llama 4社區許可協議。
考慮因素和侷限性
我們的AI基於言論自由的價值觀,幫助人們利用我們的技術進行探索、辯論和創新。我們尊重人們的自主性,使他們能夠選擇如何體驗、交互和構建AI。我們的AI促進思想的開放交流。
它旨在服務於所有人,並適用於廣泛的用例。因此,它設計為對具有不同背景、經驗和觀點的人都可訪問。Llama 4以用戶的實際需求為出發點,不插入不必要的判斷,同時認識到即使在某些情況下可能存在問題的內容,在其他情況下也可能具有重要價值。它尊重所有用戶的自主性,特別是在推動創新和進步的自由思想和表達價值觀方面。
Llama 4是一項新技術,與任何新技術一樣,使用它存在一定的風險。到目前為止進行的測試尚未涵蓋,也不可能涵蓋所有場景。因此,與所有大語言模型一樣,Llama 4的潛在輸出無法提前預測,在某些情況下,模型可能會對用戶提示產生不準確或其他令人反感的響應。因此,在部署任何Llama 4模型的應用之前,開發者應該針對特定應用進行安全測試和調優。我們也鼓勵開源社區將Llama用於研究目的,並構建解決新興風險的先進工具。請參考可用資源,包括我們的《開發者使用指南:AI保護》、Llama保護 解決方案和其他 資源 以瞭解更多信息。
⚠️ 重要提示
本版本目前僅適用於Unsloth!請查看 我們的集合 以獲取包括4位和16位格式在內的Llama 4版本。
💡 使用建議
Unsloth的 動態量化 是選擇性量化的,與標準4位量化相比,大大提高了準確性。









