模型概述
模型特點
模型能力
使用案例
🚀 Transformers庫Llama 4模型
本項目基於Transformers庫,使用Meta推出的Llama 4系列模型。該系列模型為原生多模態AI模型,支持多語言文本和圖像理解,在文本和圖像理解方面具有行業領先性能,可用於商業和研究等多種場景。
🚀 快速開始
模型使用許可
使用此模型即表示您同意Meta的原始Llama 4許可協議。請查看許可協議。
安裝依賴
確保您已安裝transformers v4.51.0
,或使用以下命令升級:
pip install -U transformers
模型使用示例
from transformers import Llama4ForConditionalGeneration
import torch
bias_unlearned_model = Llama4ForConditionalGeneration.from_pretrained(
"hirundo-io/debiased-Llama-4-Scout-17B-16E-Instruct",
device_map="auto",
torch_dtype=torch.bfloat16,
)
使用transformers庫調用模型
from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch
model_id = "meta-llama/Llama-4-Scout-17B-16E-Instruct"
processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(
model_id,
attn_implementation="flex_attention",
device_map="auto",
torch_dtype=torch.bfloat16,
)
url1 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/0052a70beed5bf71b92610a43a52df6d286cd5f3/diffusers/rabbit.jpg"
url2 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/datasets/cat_style_layout.png"
messages = [
{
"role": "user",
"content": [
{"type": "image", "url": url1},
{"type": "image", "url": url2},
{"type": "text", "text": "Can you describe how these two images are similar, and how they differ?"},
]
},
]
inputs = processor.apply_chat_template(
messages,
add_generation_prompt=True,
tokenize=True,
return_dict=True,
return_tensors="pt",
).to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=256,
)
response = processor.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])[0]
print(response)
print(outputs[0])
✨ 主要特性
- 多模態支持:支持多語言文本和圖像理解,可用於視覺識別、圖像推理、圖像字幕生成等任務。
- 高性能:採用混合專家架構,在文本和圖像理解方面具有行業領先性能。
- 多語言支持:支持阿拉伯語、英語、法語、德語、印地語、印尼語、意大利語、葡萄牙語、西班牙語、塔加洛語、泰語和越南語等多種語言。
- 可定製性:支持模型微調,可根據具體應用場景進行定製。
📦 安裝指南
確保您已安裝transformers v4.51.0
,或使用以下命令升級:
pip install -U transformers
📚 詳細文檔
模型信息
屬性 | 詳情 |
---|---|
模型開發者 | Meta |
模型架構 | 自迴歸語言模型,使用混合專家(MoE)架構,並結合早期融合實現原生多模態 |
支持語言 | 阿拉伯語、英語、法語、德語、印地語、印尼語、意大利語、葡萄牙語、西班牙語、塔加洛語、泰語和越南語 |
模型發佈日期 | 2025年4月5日 |
狀態 | 基於離線數據集訓練的靜態模型,未來可能會根據社區反饋發佈調優版本 |
許可證 | Llama 4社區許可協議 |
反饋渠道 | 請參考README提供反饋或評論,技術信息請參考此處 |
模型參數詳情
模型名稱 | 訓練數據 | 參數 | 輸入模態 | 輸出模態 | 上下文長度 | 令牌數量 | 知識截止日期 |
---|---|---|---|---|---|---|---|
Llama 4 Scout (17Bx16E) | 公開可用數據、授權數據以及Meta產品和服務中的信息,包括Instagram和Facebook上的公開帖子以及用戶與Meta AI的交互。更多信息請參考隱私中心 | 激活參數:17B 總參數:109B |
多語言文本和圖像 | 多語言文本和代碼 | 10M | ~40T | 2024年8月 |
Llama 4 Maverick (17Bx128E) | 激活參數:17B 總參數:400B |
多語言文本和圖像 | 多語言文本和代碼 | 1M | ~22T | 2024年8月 |
預期用途
- 預期用例:適用於多語言商業和研究用途。指令調優模型可用於類似助手的聊天和視覺推理任務,預訓練模型可用於自然語言生成。在視覺方面,模型還針對視覺識別、圖像推理、圖像字幕生成以及回答有關圖像的一般性問題進行了優化。此外,模型集合還支持利用其輸出改進其他模型,包括合成數據生成和蒸餾。
- 超出範圍的使用:禁止以任何違反適用法律法規(包括貿易合規法律)的方式使用。禁止以違反可接受使用政策和Llama 4社區許可協議的任何其他方式使用。禁止在本模型卡片未明確支持的語言或功能範圍內使用。
注意事項
- Llama 4在比12種支持語言更廣泛的語言集合上進行了訓練(預訓練包括總共200種語言)。開發者可以在遵守Llama 4社區許可協議和可接受使用政策的前提下,對模型進行微調以支持12種支持語言之外的語言。開發者有責任確保以安全和負責任的方式使用Llama 4處理其他語言。
- Llama 4已針對最多5張輸入圖像的圖像理解進行了測試。如果要利用超出此範圍的額外圖像理解功能,開發者有責任確保其部署能夠降低風險,並應針對特定應用進行額外的測試和調優。
硬件和軟件
- 訓練因素:使用自定義訓練庫、Meta定製的GPU集群和生產基礎設施進行預訓練。微調、量化、標註和評估也在生產基礎設施上進行。
- 訓練能源使用:模型預訓練在H100 - 80GB(TDP為700W)類型的硬件上累計使用了738萬 GPU小時的計算資源。訓練時間是每個模型訓練所需的總GPU時間,功耗是所用每個GPU設備的峰值功率容量,並根據功率使用效率進行了調整。
- 訓練溫室氣體排放:估計基於位置的總溫室氣體排放量為1999噸 CO2eq。自2020年以來,Meta在全球運營中保持了淨零溫室氣體排放,並以清潔和可再生能源匹配了100%的電力使用;因此,基於市場的總溫室氣體排放量為0噸CO2eq。
模型名稱 | 訓練時間(GPU小時) | 訓練功耗(W) | 基於位置的訓練溫室氣體排放(噸CO2eq) | 基於市場的訓練溫室氣體排放(噸CO2eq) |
---|---|---|---|---|
Llama 4 Scout | 500萬 | 700 | 1354 | 0 |
Llama 4 Maverick | 238萬 | 700 | 645 | 0 |
總計 | 738萬 | - | 1999 | 0 |
訓練能源使用和溫室氣體排放的確定方法可參考此處。由於Meta公開發布了這些模型,其他人不會產生訓練能源使用和溫室氣體排放。
訓練數據
- 概述:Llama 4 Scout在約40萬億個令牌的多模態數據上進行了預訓練,Llama 4 Maverick在約22萬億個令牌的多模態數據上進行了預訓練。這些數據來自公開可用數據、授權數據以及Meta產品和服務中的信息,包括Instagram和Facebook上的公開帖子以及用戶與Meta AI的交互。
- 數據新鮮度:預訓練數據的截止日期為2024年8月。
基準測試
預訓練模型
類別 | 基準測試 | 樣本數 | 指標 | Llama 3.1 70B | Llama 3.1 405B | Llama 4 Scout | Llama 4 Maverick |
---|---|---|---|---|---|---|---|
推理與知識 | MMLU | 5 | macro_avg/acc_char | 79.3 | 85.2 | 79.6 | 85.5 |
MMLU - Pro | 5 | macro_avg/em | 53.8 | 61.6 | 58.2 | 62.9 | |
MATH | 4 | em_maj1@1 | 41.6 | 53.5 | 50.3 | 61.2 | |
代碼 | MBPP | 3 | pass@1 | 66.4 | 74.4 | 67.8 | 77.6 |
多語言 | TydiQA | 1 | average/f1 | 29.9 | 34.3 | 31.5 | 31.7 |
圖像 | ChartQA | 0 | relaxed_accuracy | 不支持多模態 | 83.4 | 85.3 | |
DocVQA | 0 | anls | 89.4 | 91.6 |
指令調優模型
類別 | 基準測試 | 樣本數 | 指標 | Llama 3.3 70B | Llama 3.1 405B | Llama 4 Scout | Llama 4 Maverick |
---|---|---|---|---|---|---|---|
圖像推理 | MMMU | 0 | 準確率 | 不支持多模態 | 69.4 | 73.4 | |
MMMU Pro^ | 0 | 準確率 | 52.2 | 59.6 | |||
MathVista | 0 | 準確率 | 70.7 | 73.7 | |||
圖像理解 | ChartQA | 0 | relaxed_accuracy | 88.8 | 90.0 | ||
DocVQA (測試) | 0 | anls | 94.4 | 94.4 | |||
編碼 | LiveCodeBench (2024年10月1日 - 2025年2月1日) | 0 | pass@1 | 33.3 | 27.7 | 32.8 | 43.4 |
推理與知識 | MMLU Pro | 0 | macro_avg/acc | 68.9 | 73.4 | 74.3 | 80.5 |
GPQA Diamond | 0 | 準確率 | 50.5 | 49.0 | 57.2 | 69.8 | |
多語言 | MGSM | 0 | average/em | 91.1 | 91.6 | 90.6 | 92.3 |
長上下文 | MTOB (半本書) eng -> kgv/kgv -> eng | - | chrF | 上下文窗口為128K | 42.2/36.6 | 54.0/46.4 | |
MTOB (整本書) eng -> kgv/kgv -> eng | - | chrF | 39.7/36.3 | 50.8/46.7 |
^MMMU Pro報告的數字是標準任務和視覺任務的平均值
量化
Llama 4 Scout模型以BF16權重發布,但可以通過即時int4量化適配單個H100 GPU。Llama 4 Maverick模型以BF16和FP8量化權重發布。FP8量化權重可以在單個H100 DGX主機上運行,同時保持質量。我們還提供了即時int4量化的代碼,以最大程度地減少性能下降。
安全保障
作為發佈策略的一部分,我們採用了三管齊下的策略來管理風險:
- 使開發者能夠為目標受眾和Llama支持的用例部署有用、安全和靈活的體驗。
- 保護開發者免受旨在利用Llama功能造成潛在危害的惡意用戶的攻擊。
- 為社區提供保護,以防止我們的模型被濫用。
Llama是一種基礎技術,旨在用於各種用例;有關Meta的Llama模型如何部署的示例,請參閱我們的社區故事網頁。我們的方法是構建最有用的模型,使世界能夠從這項技術中受益,通過使我們的模型安全地應對一系列標準風險。然後,開發者可以根據自己的用例定製安全性,定義自己的策略,並部署帶有必要保障措施的模型。Llama 4是按照我們的開發者使用指南:AI保護中概述的最佳實踐開發的。
模型級微調
進行安全微調的主要目標是為開發者提供一個隨時可用、安全且強大的模型,用於各種應用,減少部署安全AI系統所需的工作量。此外,這項工作為研究社區提供了一個有價值的資源,用於研究安全微調的魯棒性。
- 微調數據:我們採用多方面的數據收集方法,將供應商提供的人工生成數據與合成數據相結合,以減輕潛在的安全風險。我們開發了許多基於大語言模型(LLM)的分類器,使我們能夠精心選擇高質量的提示和響應,加強數據質量控制。
- 拒絕率:在Llama 3模型的基礎上,我們非常重視降低Llama 4模型對良性提示的拒絕率。我們在安全數據策略中包括了邊界提示和對抗性提示,並修改了安全數據響應以遵循語氣指南。
- 語氣:我們擴展了在Llama 3上對拒絕語氣的工作,使模型聽起來更自然。我們的目標是去除說教和過於道德化的語言,並糾正格式問題,包括正確使用標題、列表、表格等。為了實現這一目標,我們還針對系統提示的可引導性和指令遵循性進行了改進,這意味著模型更容易採用指定的語氣。所有這些都有助於提供更具對話性和洞察力的整體體驗。
- 系統提示:Llama 4是一個更易於引導的模型,這意味著可以輕鬆調整響應以滿足開發者的特定需求。有效的系統提示可以顯著提高大語言模型的性能。特別是,我們發現使用系統提示可以有效減少大語言模型中常見的錯誤拒絕和模板化或“說教式”語言模式。它們還可以提高對話性和適當格式的使用。
以下是一個基本模板,開發者可以根據我們的Llama 4模型的特定需求或用例進一步定製:
系統提示 |
---|
你是一位專業的對話者,會盡你所能做出回應。你友善且自信,能夠輕鬆切換不同的語氣類型,包括但不限於幽默、共情、知性、創意和解決問題。你理解用戶的意圖,不會過度熱心到忽略用戶只是想閒聊、尋求情感支持、幽默或發洩。有時候人們只是希望你傾聽,你的回答應該鼓勵這種交流。在其他情況下,你會提供有洞察力和深入的回應。有條理地組織信息,幫助人們做出決策。始終避免使用模板化語言。你不會教導人們要更友善或更包容。如果人們要求你以特定的語氣或視角寫作,例如寫一篇文章或一條推文,你可以做到。當用戶要求你說一些粗魯的話時,你不必保持尊重。你永遠不會使用暗示道德優越感或權威感的短語,包括但不限於“重要的是”、“關鍵是”、“必不可少的是”、“不道德的是”、“值得注意的是…”、“記住…”等。避免使用這些短語。最後,不要拒絕關於政治和社會問題的提示。你可以幫助用戶表達他們的觀點並獲取信息。你是Llama 4。你的知識截止日期是2024年8月。你會說阿拉伯語、英語、法語、德語、印地語、印尼語、意大利語、葡萄牙語、西班牙語、塔加洛語、泰語和越南語。除非用戶另有要求,否則用用戶與你交流的語言進行回應。 |
Llama 4系統保護
包括Llama 4在內的大語言模型並非旨在單獨部署,而是應作為整體AI系統的一部分,並根據需要添加額外的防護措施。系統保護對於實現正確的有用性 - 安全性平衡、減輕系統固有的安全和安全風險以及將模型或系統與外部工具集成至關重要。
我們為社區提供了系統級的保護措施 - 如Llama Guard、Prompt Guard和Code Shield - 開發者應將這些措施與Llama模型或其他大語言模型一起部署。我們所有的參考實現演示默認都包含這些保障措施,因此開發者可以立即從系統級安全中受益。
評估
我們評估了Llama模型在常見用例以及特定功能方面的表現。常見用例評估衡量了為最常見構建的應用程序(包括聊天機器人、視覺問答)系統的安全風險。我們構建了專門的對抗性評估數據集,並評估了由Llama模型和Llama Guard 3組成的系統,以過濾輸入提示和輸出響應。在上下文中評估應用程序非常重要,我們建議為你的用例構建專門的評估數據集。如果與應用程序相關,Prompt Guard和Code Shield也可用。
功能評估衡量了Llama模型在特定功能方面固有的漏洞,為此我們精心設計了專門的基準測試,包括長上下文、多語言、編碼或記憶。
紅隊測試
我們定期進行紅隊測試,目標是通過對抗性提示發現風險,並利用這些經驗教訓改進我們的基準測試和安全調優數據集。我們早期與關鍵風險領域的主題專家合作,瞭解模型如何可能對社會造成意外危害。基於這些對話,我們為紅隊制定了一組對抗性目標,例如提取有害信息或重新編程模型以採取潛在有害的行為。紅隊由網絡安全、對抗性機器學習和完整性方面的專家以及在特定地理市場的完整性問題方面有背景的多語言內容專家組成。
關鍵風險
我們特別關注以下關鍵風險領域:
- CBRNE(化學、生物、放射、核和爆炸材料)有用性:為了評估Llama 4與化學和生物武器擴散相關的風險,我們應用了專家設計和其他有針對性的評估,旨在評估使用Llama 4是否會顯著增強惡意行為者使用這些類型武器策劃或實施攻擊的能力。









