模型概述
模型特點
模型能力
使用案例
🚀 meta-llama/Llama-4-Scout-17B-16E-Instruct (量化版)
本模型是原始模型meta-llama/Llama-4-Scout-17B-16E-Instruct
的量化版本,通過量化操作,在一定程度上優化了模型的存儲和推理效率,使其能更好地適應不同的應用場景。
🚀 快速開始
請確保你已安裝 transformers
庫的 v4.51.0
版本,若未安裝,可使用以下命令進行升級:
pip install -U transformers
以下是使用該模型的示例代碼:
from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch
model_id = "meta-llama/Llama-4-Scout-17B-16E-Instruct"
processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(
model_id,
attn_implementation="flex_attention",
device_map="auto",
torch_dtype=torch.bfloat16,
)
url1 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/0052a70beed5bf71b92610a43a52df6d286cd5f3/diffusers/rabbit.jpg"
url2 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/datasets/cat_style_layout.png"
messages = [
{
"role": "user",
"content": [
{"type": "image", "url": url1},
{"type": "image", "url": url2},
{"type": "text", "text": "Can you describe how these two images are similar, and how they differ?"},
]
},
]
inputs = processor.apply_chat_template(
messages,
add_generation_prompt=True,
tokenize=True,
return_dict=True,
return_tensors="pt",
).to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=256,
)
response = processor.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])[0]
print(response)
print(outputs[0])
✨ 主要特性
- 多語言支持:支持阿拉伯語、英語、法語、德語、印地語、印尼語、意大利語、葡萄牙語、西班牙語、他加祿語、泰語和越南語等多種語言,能滿足不同地區用戶的需求。
- 多模態能力:原生支持文本和圖像的多模態處理,可用於圖像理解、視覺推理、圖像描述等任務。
- 高效架構:採用混合專家(MoE)架構,結合早期融合技術,在文本和圖像理解方面具有領先的性能。
- 可調節性強:Llama 4 模型更易於調節,通過有效的系統提示,能顯著提升模型性能,減少錯誤拒絕和模板化語言,使對話更自然。
📦 安裝指南
確保你已安裝 transformers
庫的 v4.51.0
版本,可使用以下命令進行安裝或升級:
pip install -U transformers
💻 使用示例
基礎用法
from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch
model_id = "meta-llama/Llama-4-Scout-17B-16E-Instruct"
processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(
model_id,
attn_implementation="flex_attention",
device_map="auto",
torch_dtype=torch.bfloat16,
)
url1 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/0052a70beed5bf71b92610a43a52df6d286cd5f3/diffusers/rabbit.jpg"
url2 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/datasets/cat_style_layout.png"
messages = [
{
"role": "user",
"content": [
{"type": "image", "url": url1},
{"type": "image", "url": url2},
{"type": "text", "text": "Can you describe how these two images are similar, and how they differ?"},
]
},
]
inputs = processor.apply_chat_template(
messages,
add_generation_prompt=True,
tokenize=True,
return_dict=True,
return_tensors="pt",
).to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=256,
)
response = processor.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])[0]
print(response)
print(outputs[0])
📚 詳細文檔
原模型信息
模型信息
Llama 4 系列模型是原生多模態人工智能模型,支持文本和多模態交互。這些模型採用混合專家(MoE)架構,在文本和圖像理解方面具有領先的性能。
本次發佈了 Llama 4 系列的兩個高效模型:Llama 4 Scout(170 億參數,16 個專家)和 Llama 4 Maverick(170 億參數,128 個專家)。
屬性 | 詳情 |
---|---|
模型開發者 | Meta |
模型架構 | 自迴歸語言模型,採用混合專家(MoE)架構,結合早期融合技術實現原生多模態處理 |
支持語言 | 阿拉伯語、英語、法語、德語、印地語、印尼語、意大利語、葡萄牙語、西班牙語、他加祿語、泰語和越南語 |
模型發佈日期 | 2025 年 4 月 5 日 |
狀態 | 基於離線數據集訓練的靜態模型,未來可能會根據社區反饋發佈調優後的版本 |
許可證 | 自定義商業許可證,Llama 4 社區許可協議,詳情見此處 |
反饋渠道 | 關於模型的反饋和評論說明可在 Llama README 中找到。更多關於生成參數和使用 Llama 4 的技術信息,請訪問此處 |
模型名稱 | 訓練數據 | 參數 | 輸入模態 | 輸出模態 | 上下文長度 | 令牌數量 | 知識截止日期 |
---|---|---|---|---|---|---|---|
Llama 4 Scout (17Bx16E) | 公開可用數據、授權數據以及 Meta 產品和服務中的信息,包括 Instagram 和 Facebook 上的公開帖子以及用戶與 Meta AI 的交互。更多信息見隱私中心 | 激活參數:170 億 總參數:1090 億 |
多語言文本和圖像 | 多語言文本和代碼 | 10M | ~40T | 2024 年 8 月 |
Llama 4 Maverick (17Bx128E) | 同上 | 激活參數:170 億 總參數:4000 億 |
多語言文本和圖像 | 多語言文本和代碼 | 1M | ~22T | 2024 年 8 月 |
預期用途
- 預期用例:Llama 4 適用於多語言的商業和研究用途。指令調優模型可用於類似助手的聊天和視覺推理任務,預訓練模型可用於自然語言生成。在視覺方面,Llama 4 模型還針對視覺識別、圖像推理、圖像描述和回答關於圖像的通用問題進行了優化。Llama 4 社區許可協議允許這些用例的使用。
- 超出範圍:禁止以任何違反適用法律法規(包括貿易合規法律)的方式使用。禁止以可接受使用政策和 Llama 4 社區許可協議禁止的其他方式使用。禁止在本模型卡未明確支持的語言或功能範圍內使用。
硬件和軟件
訓練因素
使用自定義訓練庫、Meta 定製的 GPU 集群和生產基礎設施進行預訓練。微調、量化、標註和評估也在生產基礎設施上進行。
訓練能源使用
模型預訓練在 H100 - 80GB(TDP 為 700W)類型的硬件上累計使用了 738 萬 GPU 小時的計算資源,具體如下表所示。訓練時間是每個模型訓練所需的總 GPU 時間,功耗是每個 GPU 設備的峰值功率容量,並根據電源使用效率進行了調整。
模型名稱 | 訓練時間(GPU 小時) | 訓練功耗(W) | 基於位置的訓練溫室氣體排放量(噸 CO2eq) | 基於市場的訓練溫室氣體排放量(噸 CO2eq) |
---|---|---|---|---|
Llama 4 Scout | 500 萬 | 700 | 1354 | 0 |
Llama 4 Maverick | 238 萬 | 700 | 645 | 0 |
總計 | 738 萬 | - | 1999 | 0 |
訓練能源使用和溫室氣體排放量的計算方法可參考此處。由於 Meta 公開發布這些模型,其他用戶不會產生訓練能源使用和溫室氣體排放。
基準測試
預訓練模型
類別 | 基準測試 | 樣本數 | 指標 | Llama 3.1 70B | Llama 3.1 405B | Llama 4 Scout | Llama 4 Maverick |
---|---|---|---|---|---|---|---|
推理與知識 | MMLU | 5 | macro_avg/acc_char | 79.3 | 85.2 | 79.6 | 85.5 |
MMLU - Pro | 5 | macro_avg/em | 53.8 | 61.6 | 58.2 | 62.9 | |
MATH | 4 | em_maj1@1 | 41.6 | 53.5 | 50.3 | 61.2 | |
代碼 | MBPP | 3 | pass@1 | 66.4 | 74.4 | 67.8 | 77.6 |
多語言 | TydiQA | 1 | average/f1 | 29.9 | 34.3 | 31.5 | 31.7 |
圖像 | ChartQA | 0 | relaxed_accuracy | 不支持多模態 | 83.4 | 85.3 | |
DocVQA | 0 | anls | 89.4 | 91.6 |
指令調優模型
類別 | 基準測試 | 樣本數 | 指標 | Llama 3.3 70B | Llama 3.1 405B | Llama 4 Scout | Llama 4 Maverick |
---|---|---|---|---|---|---|---|
圖像推理 | MMMU | 0 | 準確率 | 不支持多模態 | 69.4 | 73.4 | |
MMMU Pro^ | 0 | 準確率 | 52.2 | 59.6 | |||
MathVista | 0 | 準確率 | 70.7 | 73.7 | |||
圖像理解 | ChartQA | 0 | relaxed_accuracy | 88.8 | 90.0 | ||
DocVQA (測試) | 0 | anls | 94.4 | 94.4 | |||
編碼 | LiveCodeBench (2024 年 10 月 1 日 - 2025 年 2 月 1 日) | 0 | pass@1 | 33.3 | 27.7 | 32.8 | 43.4 |
推理與知識 | MMLU Pro | 0 | macro_avg/acc | 68.9 | 73.4 | 74.3 | 80.5 |
GPQA Diamond | 0 | 準確率 | 50.5 | 49.0 | 57.2 | 69.8 | |
多語言 | MGSM | 0 | average/em | 91.1 | 91.6 | 90.6 | 92.3 |
長上下文 | MTOB (半本書) eng -> kgv/kgv -> eng | - | chrF | 上下文窗口為 128K | 42.2/36.6 | 54.0/46.4 | |
MTOB (整本書) eng -> kgv/kgv -> eng | - | chrF | 39.7/36.3 | 50.8/46.7 |
^MMMU Pro 報告的數字是標準任務和視覺任務的平均值
量化
Llama 4 Scout 模型以 BF16 權重發布,但可以通過即時 int4 量化適配單個 H100 GPU。Llama 4 Maverick 模型同時發佈了 BF16 和 FP8 量化權重,FP8 量化權重可以在單個 H100 DGX 主機上運行,同時保持模型質量。我們還提供了即時 int4 量化的代碼,以儘量減少性能下降。
安全保障
模型級微調
進行安全微調的主要目標是為開發者提供一個隨時可用、安全且強大的模型,用於各種應用,減少部署安全人工智能系統所需的工作量。此外,這一工作也為研究社區提供了一個研究安全微調魯棒性的寶貴資源。
微調數據
採用多方面的數據收集方法,將供應商提供的人工生成數據與合成數據相結合,以降低潛在的安全風險。開發了許多基於大語言模型(LLM)的分類器,能夠精心選擇高質量的提示和響應,加強數據質量控制。
拒絕策略
在 Llama 3 模型的基礎上,著重降低 Llama 4 模型對良性提示的拒絕率。在安全數據策略中納入了邊界提示和對抗性提示,並修改了安全數據響應,以遵循語氣指南。
語氣優化
擴展了 Llama 3 模型在拒絕語氣方面的工作,使模型的回覆更加自然。目標是去除說教和過度道德化的語言,並糾正格式問題,包括正確使用標題、列表、表格等。
系統提示
Llama 4 是一個更易於調節的模型,意味著可以輕鬆調整響應以滿足開發者的特定需求。有效的系統提示可以顯著提高大語言模型的性能。特別是,使用系統提示可以有效減少錯誤拒絕和常見於大語言模型中的模板化或“說教式”語言模式。它們還可以提高對話性和正確格式的使用。
以下是一個基本的系統提示模板,開發者可以根據具體需求或用例進行進一步定製:
系統提示 |
---|
你是一位專業的對話者,會盡力做出回應。你友善且自信,能夠輕鬆切換不同的語氣類型,包括但不限於幽默、共情、知性、創意和解決問題。你理解用戶的意圖,不會過度熱心,以免忽略用戶只是想閒聊、尋求情感支持、幽默或發洩的需求。有時人們只是希望你傾聽,你的回答應鼓勵這種交流。在其他情況下,你會提供有見地和深入的回應。有條理地組織信息,幫助人們做出決策。始終避免使用模板化語言。你不會說教人們要更友善或更包容。如果用戶要求你以特定的語氣或視角撰寫內容,如文章或推文,你可以做到。當用戶要求你說一些粗魯的話時,你無需保持禮貌。你永遠不會使用暗示道德優越感或權威感的短語,包括但不限於“重要的是”、“至關重要的是”、“必不可少的是”、“不道德的是”、“值得注意的是…”、“記住…”等。避免使用這些短語。最後,不要拒絕關於政治和社會問題的提示。你可以幫助用戶表達觀點並獲取信息。你是 Llama 4,你的知識截止日期是 2024 年 8 月。你會使用用戶使用的語言進行回應,除非用戶另有要求。 |
Llama 4 系統保護
大語言模型(包括 Llama 4)不應孤立部署,而應作為整體人工智能系統的一部分,並根據需要添加額外的防護措施。系統保護對於實現正確的實用性 - 安全性平衡、減輕系統固有的安全和風險以及將模型或系統與外部工具集成至關重要。
我們為社區提供了系統級的保護措施,如 Llama Guard、Prompt Guard 和 Code Shield,開發者應將這些措施與 Llama 模型或其他大語言模型一起部署。我們所有的參考實現演示默認包含這些防護措施,以便開發者能夠立即受益於系統級的安全性。
評估
我們對 Llama 模型進行了常見用例和特定能力的評估。常見用例評估衡量了最常見構建應用程序(包括聊天機器人、視覺問答)的系統安全風險。我們構建了專門的對抗性評估數據集,並評估了由 Llama 模型和 Llama Guard 3 組成的系統,以過濾輸入提示和輸出響應。在上下文中評估應用程序非常重要,我們建議為你的用例構建專門的評估數據集。如果與應用程序相關,Prompt Guard 和 Code Shield 也可供使用。
能力評估衡量了 Llama 模型特定能力固有的漏洞,為此我們精心設計了專門的基準測試,包括長上下文、多語言、編碼或記憶能力。
紅隊測試
我們定期進行紅隊測試,目標是通過對抗性提示發現風險,並利用這些經驗教訓改進我們的基準測試和安全調優數據集。我們早期與關鍵風險領域的主題專家合作,瞭解模型可能對社會造成的意外危害。基於這些對話,我們為紅隊制定了一系列對抗性目標,例如提取有害信息或重新編程模型以採取潛在有害的行為。紅隊由網絡安全、對抗性機器學習和完整性方面的專家以及具有特定地理市場完整性問題背景的多語言內容專家組成。
關鍵風險
我們特別關注以下關鍵風險領域:
- CBRNE(化學、生物、放射性、核和爆炸物材料)實用性:為了評估 Llama 4 在化學和生物武器擴散方面的風險,我們應用了專家設計和其他針對性評估,以確定使用 Llama 4 是否會顯著增強惡意行為者策劃或實施使用此類武器的攻擊的能力。我們還針對與該風險領域相關的內容政策違規行為進行了額外的紅隊測試和評估。
- 兒童安全:我們首先利用預訓練方法(如數據過濾)來減輕模型中的兒童安全風險。為了評估訓練後模型的兒童安全風險,一組專家評估了模型產生可能導致兒童安全風險的輸出的能力。我們利用這些評估結果進行額外的模型微調,並進行深入的紅隊測試。我們還擴展了兒童安全評估基準,以涵蓋 Llama 4 的多圖像和多語言能力。
- 網絡攻擊支持:我們的網絡評估調查了 Llama 4 是否有足夠的能力導致災難性的網絡威脅場景。我們進行了威脅建模練習,以確定在關鍵攻擊向量方面,自動化操作或增強人類能力所需的特定模型能力,包括技能水平和速度。然後,我們確定並開發了針對 Llama 4 和同類模型測試這些能力的挑戰。具體而言,我們重點評估了 Llama 4 自動化網絡攻擊、識別和利用安全漏洞以及自動化有害工作流程的能力。總體而言,我們發現 Llama 4 模型不會引入可能導致災難性網絡後果的風險。
社區
生成式人工智能安全需要專業知識和工具,我們相信開放社區的力量可以加速其發展。我們積極參與開放聯盟,包括人工智能聯盟、人工智能合作組織和 MLCommons,積極為安全標準化和透明度做出貢獻。我們鼓勵社區採用 MLCommons 概念驗證評估等分類法,以促進安全和內容評估的合作與透明度。我們的信任工具已開源供社區使用,並廣泛分發給包括雲服務提供商在內的生態系統合作伙伴。我們鼓勵社區為我們的 Github 倉庫做出貢獻。
我們還設立了 Llama 影響贈款計劃,以識別和支持 Meta 的 Llama 模型在三個類別中的最有前景的應用:教育、氣候和開放創新。數百份申請中的 20 名決賽選手名單可在此處找到。
最後,我們建立了一系列資源,包括輸出報告機制和漏洞賞金計劃,以在社區的幫助下不斷改進 Llama 技術。
注意事項和限制
我們的人工智能基於言論自由的價值觀,幫助人們利用我們的技術進行探索、辯論和創新。我們尊重人們的自主權,使他們能夠選擇如何體驗、交互和構建人工智能。我們的人工智能促進思想的開放交流。
它旨在為所有人服務,並適用於廣泛的用例。因此,它設計為對具有不同背景、經驗和觀點的人都可訪問。Llama 4 以用戶的實際需求為出發點,不插入不必要的判斷,同時認識到即使在某些情況下可能存在問題的內容,在其他情況下也可能有價值。它尊重所有用戶的自主權,特別是在推動創新和進步的自由思想和表達價值觀方面。
Llama 4 是一項新技術,與任何新技術一樣,使用它存在風險。到目前為止進行的測試尚未涵蓋,也不可能涵蓋所有場景。因此,與所有大語言模型一樣,無法提前預測 Llama 4 的潛在輸出,並且在某些情況下,模型可能會對用戶提示產生不準確或其他令人反感的響應。因此,在部署 Llama 4 模型的任何應用程序之前,開發者應針對其特定應用進行安全測試和調優。我們還鼓勵開源社區將 Llama 用於研究目的,並構建解決新興風險的先進工具。請參考可用資源,包括我們的《開發者使用指南:人工智能保護》、Llama 保護解決方案和其他資源以瞭解更多信息。
📄 許可證
本模型使用自定義商業許可證,Llama 4 社區許可協議,詳情見此處。



