模型概述
模型特點
模型能力
使用案例
🚀 Llama 4模型 - 多模態AI新體驗
Llama 4系列模型是原生多模態AI模型,能帶來文本和多模態交互體驗。它們採用混合專家架構,在文本和圖像理解方面表現卓越,開啟了Llama生態系統的新紀元。
🚀 快速開始
安裝依賴
請確保你已安裝transformers
庫的v4.51.0
版本,若未安裝,可使用以下命令進行升級:
pip install -U transformers
使用示例
from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch
model_id = "meta-llama/Llama-4-Scout-17B-16E-Instruct"
processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(
model_id,
attn_implementation="flex_attention",
device_map="auto",
torch_dtype=torch.bfloat16,
)
url1 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/0052a70beed5bf71b92610a43a52df6d286cd5f3/diffusers/rabbit.jpg"
url2 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/datasets/cat_style_layout.png"
messages = [
{
"role": "user",
"content": [
{"type": "image", "url": url1},
{"type": "image", "url": url2},
{"type": "text", "text": "Can you describe how these two images are similar, and how they differ?"},
]
},
]
inputs = processor.apply_chat_template(
messages,
add_generation_prompt=True,
tokenize=True,
return_dict=True,
return_tensors="pt",
).to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=256,
)
response = processor.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])[0]
print(response)
print(outputs[0])
✨ 主要特性
- 多模態能力:原生支持文本和圖像等多模態輸入輸出,可用於圖像理解、視覺推理等任務。
- 混合專家架構:採用MoE架構,在文本和圖像理解方面表現出色。
- 高效模型:推出了Llama 4 Scout和Llama 4 Maverick兩款170億參數的高效模型。
📦 模型信息
模型開發者
Meta
模型架構
Llama 4模型是自迴歸語言模型,採用混合專家(MoE)架構,並結合早期融合實現原生多模態。
模型參數詳情
模型名稱 | 訓練數據 | 參數數量 | 輸入模態 | 輸出模態 | 上下文長度 | 令牌數量 | 知識截止日期 |
---|---|---|---|---|---|---|---|
Llama 4 Scout (17Bx16E) | 混合了公開可用數據、授權數據以及Meta產品和服務中的信息,包括Instagram和Facebook上的公開帖子以及用戶與Meta AI的交互。更多信息可查看隱私中心。 | 激活參數:170億 總參數:1090億 |
多語言文本和圖像 | 多語言文本和代碼 | 10M | ~40T | 2024年8月 |
Llama 4 Maverick (17Bx128E) | 激活參數:170億 總參數:4000億 |
多語言文本和圖像 | 多語言文本和代碼 | 1M | ~22T | 2024年8月 |
支持語言
阿拉伯語、英語、法語、德語、印地語、印尼語、意大利語、葡萄牙語、西班牙語、塔加洛語、泰語和越南語。
模型發佈日期
2025年4月5日
模型狀態
這是一個基於離線數據集訓練的靜態模型。隨著收集社區反饋並改進模型性能,未來可能會發布調優後的版本。
許可證
自定義商業許可證,即Llama 4社區許可協議,詳情可查看:https://github.com/meta-llama/llama-models/blob/main/models/llama4/LICENSE
反饋渠道
有關模型的反饋或建議,可查看Llama的README。如需瞭解更多關於生成參數和在應用中使用Llama 4的技術信息,請訪問此處。
📚 詳細文檔
預期用途
預期用例
- 商業和研究:支持多語言的商業和研究應用。
- 對話和推理:指令調優模型適用於類似助手的聊天和視覺推理任務。
- 自然語言生成:預訓練模型可用於自然語言生成。
- 視覺任務:適用於視覺識別、圖像推理、圖像描述和回答圖像相關問題。
- 模型改進:支持利用其輸出改進其他模型,包括合成數據生成和蒸餾。
非預期用途
- 違反適用法律法規(包括貿易合規法律)的使用。
- 違反可接受使用政策和Llama 4社區許可協議的使用。
- 使用超出本模型卡明確支持的語言或功能。
注意事項
- Llama 4在超過12種支持語言的更廣泛語言集上進行了訓練(預訓練包括200種語言)。開發者可在遵守Llama 4社區許可協議和可接受使用政策的前提下,對模型進行微調以支持更多語言,並確保使用方式安全可靠。
- Llama 4在圖像理解方面最多測試了5張輸入圖像。若需使用更多圖像理解功能,開發者需自行評估風險,並針對具體應用進行額外測試和調優。
🔧 技術細節
訓練因素
- 預訓練使用了自定義訓練庫、Meta定製的GPU集群和生產基礎設施。
- 微調、量化、標註和評估也在生產基礎設施上進行。
訓練能耗
模型預訓練在H100 - 80GB(TDP為700W)類型的硬件上累計使用了738萬 GPU小時的計算資源。訓練時間是每個模型訓練所需的總GPU時間,功耗是每個GPU設備的峰值功率容量,並根據功率使用效率進行了調整。
訓練溫室氣體排放
- 基於位置的估計總溫室氣體排放量為1999噸 CO2eq。
- 自2020年以來,Meta在全球運營中保持淨零溫室氣體排放,並使用100%的清潔和可再生能源匹配其電力消耗,因此基於市場的總溫室氣體排放量為0噸CO2eq。
模型名稱 | 訓練時間(GPU小時) | 訓練功耗(W) | 基於位置的訓練溫室氣體排放(噸CO2eq) | 基於市場的訓練溫室氣體排放(噸CO2eq) |
---|---|---|---|---|
Llama 4 Scout | 500萬 | 700 | 1354 | 0 |
Llama 4 Maverick | 238萬 | 700 | 645 | 0 |
總計 | 738萬 | - | 1999 | 0 |
能耗和排放計算方法
可查看此處瞭解訓練能耗和溫室氣體排放的計算方法。由於Meta公開發布了這些模型,其他用戶不會產生訓練能耗和溫室氣體排放。
基準測試
預訓練模型
類別 | 基準測試 | 樣本數量 | 指標 | Llama 3.1 70B | Llama 3.1 405B | Llama 4 Scout | Llama 4 Maverick |
---|---|---|---|---|---|---|---|
推理與知識 | MMLU | 5 | macro_avg/acc_char | 79.3 | 85.2 | 79.6 | 85.5 |
MMLU - Pro | 5 | macro_avg/em | 53.8 | 61.6 | 58.2 | 62.9 | |
MATH | 4 | em_maj1@1 | 41.6 | 53.5 | 50.3 | 61.2 | |
代碼 | MBPP | 3 | pass@1 | 66.4 | 74.4 | 67.8 | 77.6 |
多語言 | TydiQA | 1 | average/f1 | 29.9 | 34.3 | 31.5 | 31.7 |
圖像 | ChartQA | 0 | relaxed_accuracy | 不支持多模態 | 83.4 | 85.3 | |
DocVQA | 0 | anls | 89.4 | 91.6 |
指令調優模型
類別 | 基準測試 | 樣本數量 | 指標 | Llama 3.3 70B | Llama 3.1 405B | Llama 4 Scout | Llama 4 Maverick |
---|---|---|---|---|---|---|---|
圖像推理 | MMMU | 0 | 準確率 | 不支持多模態 | 69.4 | 73.4 | |
MMMU Pro^ | 0 | 準確率 | 52.2 | 59.6 | |||
MathVista | 0 | 準確率 | 70.7 | 73.7 | |||
圖像理解 | ChartQA | 0 | relaxed_accuracy | 88.8 | 90.0 | ||
DocVQA (測試) | 0 | anls | 94.4 | 94.4 | |||
編碼 | LiveCodeBench (2024年10月1日 - 2025年2月1日) | 0 | pass@1 | 33.3 | 27.7 | 32.8 | 43.4 |
推理與知識 | MMLU Pro | 0 | macro_avg/acc | 68.9 | 73.4 | 74.3 | 80.5 |
GPQA Diamond | 0 | 準確率 | 50.5 | 49.0 | 57.2 | 69.8 | |
多語言 | MGSM | 0 | average/em | 91.1 | 91.6 | 90.6 | 92.3 |
長上下文 | MTOB (半本書) eng->kgv/kgv->eng | - | chrF | 上下文窗口為128K | 42.2/36.6 | 54.0/46.4 | |
MTOB (整本書) eng->kgv/kgv->eng | - | chrF | 39.7/36.3 | 50.8/46.7 |
^MMMU Pro的報告數據是標準任務和視覺任務的平均值
量化
- Llama 4 Scout模型以BF16權重發布,可通過即時int4量化適配單個H100 GPU。
- Llama 4 Maverick模型同時發佈了BF16和FP8量化權重,FP8量化權重可在單個H100 DGX主機上運行並保持質量。同時,我們提供了即時int4量化代碼,可最大程度減少性能損失。
📄 許可證
本模型使用Llama 4社區許可協議,點擊“我接受”或使用、分發Llama材料的任何部分即表示同意受此協議約束。協議詳情如下:
LLAMA 4社區許可協議
1. 許可權利和再分發
- 權利授予:您被授予非排他性、全球性、不可轉讓且免版稅的有限許可,可在Llama材料所體現的Meta知識產權或其他權利下,使用、複製、分發、拷貝、創作衍生作品並對Llama材料進行修改。
- 再分發和使用:
- 若您分發或提供Llama材料(或其任何衍生作品),或包含這些材料的產品或服務(包括其他AI模型),您應(A)隨任何此類Llama材料提供本協議的副本;(B)在相關網站、用戶界面、博客文章、關於頁面或產品文檔中顯著顯示“Built with Llama”。若您使用Llama材料或其任何輸出結果來創建、訓練、微調或以其他方式改進AI模型並進行分發或提供,您還應在任何此類AI模型名稱前加上“Llama”。
- 若您作為集成最終用戶產品的一部分從被許可方處接收Llama材料或其任何衍生作品,則本協議第2條不適用於您。
- 您必須在分發的所有Llama材料副本中保留以下歸屬聲明,該聲明應包含在作為此類副本一部分分發的“Notice”文本文件中:“Llama 4 is licensed under the Llama 4 Community License, Copyright © Meta Platforms, Inc. All Rights Reserved.”
- 您對Llama材料的使用必須遵守適用法律法規(包括貿易合規法律法規),並遵守Llama材料的可接受使用政策(可在https://www.llama.com/llama4/use-policy查看),該政策特此併入本協議。
2. 額外商業條款
若在Llama 4版本發佈日期,被許可方或其關聯方提供的產品或服務在前一個日曆月的月活躍用戶數超過7億,則您必須向Meta申請許可,Meta可自行決定是否授予,在Meta明確授予您此類權利之前,您無權行使本協議下的任何權利。
3. 保修免責聲明
除非適用法律要求,Llama材料及其任何輸出和結果按“現狀”提供,不提供任何形式的保證,Meta明確排除所有明示和暗示的保證,包括但不限於所有權、不侵權、適銷性或特定用途適用性的保證。您獨自負責確定使用或再分發Llama材料的適當性,並承擔使用Llama材料及其任何輸出和結果相關的所有風險。
4. 責任限制
在任何責任理論下,無論是合同、侵權、疏忽、產品責任還是其他,Meta或其關聯方均不對因本協議產生的任何利潤損失或任何間接、特殊、後果性、偶發性、懲戒性或懲罰性損害承擔責任,即使Meta或其關聯方已被告知此類損害的可能性。
5. 知識產權
- 商標許可:本協議未授予商標許可,關於Llama材料,除非為合理和慣常描述及再分發Llama材料所需,或如本節5(a)所述,Meta和被許可方均不得使用對方或其關聯方擁有或關聯的任何名稱或標記。Meta特此授予您僅為遵守第1.b.i條最後一句所需而使用“Llama”(“標記”)的許可。您應遵守Meta的品牌指南(目前可在https://about.meta.com/brand/resources/meta/company-brand/查看)。您使用標記所產生的所有商譽均歸Meta所有。
- 衍生作品所有權:在Meta對Llama材料及其衍生作品擁有所有權的前提下,就您創作的Llama材料的任何衍生作品和修改而言,您是並將繼續是此類衍生作品和修改的所有者。
- 侵權訴訟後果:若您對Meta或任何實體提起訴訟或其他程序(包括訴訟中的交叉索賠或反訴),聲稱Llama材料、Llama 4的輸出或結果或其任何部分構成侵犯您擁有或可許可的知識產權或其他權利,則本協議授予您的所有許可自此類訴訟或索賠提起之日起終止。您應賠償並使Meta免受因您使用或分發Llama材料而產生或與之相關的任何第三方索賠。
6. 期限和終止
本協議自您接受本協議或訪問Llama材料時生效,並將持續有效,直至根據本協議的條款和條件終止。若您違反本協議的任何條款和條件,Meta可終止本協議。協議終止後,您應刪除並停止使用Llama材料。第3、4和7條在協議終止後仍然有效。
7. 適用法律和管轄權
本協議受加利福尼亞州法律管轄和解釋,不考慮法律選擇原則,《聯合國國際貨物銷售合同公約》不適用於本協議。加利福尼亞州的法院對因本協議產生的任何爭議具有專屬管轄權。









