Llama 4 Scout開源多模態模型 - 支持12種語言與圖像理解，超長上下文

首頁

Llama 4 Scout 17B 16E Unsloth Bnb 4bit

由unsloth開發

Llama 4 Scout是Meta開發的多模態混合專家模型，支持12種語言和圖像理解，具有170億激活參數和10M上下文長度。

多模態融合

Transformers

支持多種語言開源協議:其他 #多模態混合專家 #超長上下文(10M)#多語言圖像理解

下載量 2,492

發布時間 : 4/6/2025

模型概述

基於自迴歸語言模型的混合專家架構，支持多語言文本生成、代碼生成和圖像理解，適用於商業與研究用途。

模型特點

混合專家架構

採用16專家設計，激活參數170億，總參數1090億，平衡性能與效率

多模態支持

支持文本與圖像輸入，實現早期多模態融合

長上下文處理

10M tokens上下文窗口，適合處理長文檔和複雜任務

動態量化

支持BF16權重及即時int4量化，顯著降低部署資源需求

模型能力

多語言文本生成

代碼生成

圖像理解

視覺推理

長文檔處理

使用案例

商業應用

智能客服

多語言客戶支持系統

支持12種語言的即時對話

文檔分析

長合同/報告自動摘要

10M tokens上下文處理能力

研究開發

多模態研究

圖文聯合理解實驗平臺

圖像+文本聯合推理準確率73.4% (MMMU)

🚀 Llama 4模型

Llama 4是Meta推出的原生多模態AI模型，支持文本和多模態交互。它採用混合專家架構，在文本和圖像理解方面表現卓越，為Llama生態開啟了新篇章。

🚀 快速開始

安裝依賴

請確保你已安裝transformers庫的v4.51.0版本，若未安裝，可使用以下命令進行升級：

pip install -U transformers

代碼示例

from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch

model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct"

processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(
    model_id,
    attn_implementation="flex_attention",
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

url1 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/0052a70beed5bf71b92610a43a52df6d286cd5f3/diffusers/rabbit.jpg"
url2 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/datasets/cat_style_layout.png"
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "url": url1},
            {"type": "image", "url": url2},
            {"type": "text", "text": "Can you describe how these two images are similar, and how they differ?"},
        ]
    },
]

inputs = processor.apply_chat_template(
    messages,
    add_generation_prompt=True,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
).to(model.device)

outputs = model.generate(
    **inputs,
    max_new_tokens=256,
)

response = processor.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])[0]
print(response)
print(outputs[0])

✨ 主要特性

多模態支持：原生支持文本和圖像輸入，可處理多語言文本和圖像理解任務。
混合專家架構：採用MoE架構，提升模型在文本和圖像理解方面的性能。
高性能表現：在多個基準測試中表現出色，如推理、代碼生成、多語言處理和圖像理解等任務。
可調節性強：通過系統提示，可輕鬆調整模型的響應風格和輸出結果。

📦 安裝指南

確保你已安裝transformers庫的v4.51.0版本，使用以下命令進行安裝或升級：

pip install -U transformers

💻 使用示例

基礎用法

from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch

model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct"

processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(
    model_id,
    attn_implementation="flex_attention",
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

url1 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/0052a70beed5bf71b92610a43a52df6d286cd5f3/diffusers/rabbit.jpg"
url2 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/datasets/cat_style_layout.png"
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "url": url1},
            {"type": "image", "url": url2},
            {"type": "text", "text": "Can you describe how these two images are similar, and how they differ?"},
        ]
    },
]

inputs = processor.apply_chat_template(
    messages,
    add_generation_prompt=True,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
).to(model.device)

outputs = model.generate(
    **inputs,
    max_new_tokens=256,
)

response = processor.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])[0]
print(response)
print(outputs[0])

📚 詳細文檔

模型信息

屬性	詳情
模型開發者	Meta
模型架構	自迴歸語言模型，採用混合專家（MoE）架構，支持原生多模態
支持語言	阿拉伯語、英語、法語、德語、印地語、印尼語、意大利語、葡萄牙語、西班牙語、他加祿語、泰語和越南語
模型發佈日期	2025年4月5日
狀態	靜態模型，基於離線數據集訓練。未來可能會根據社區反饋發佈調優版本
許可證	自定義商業許可證，Llama 4社區許可協議，詳情見此處
反饋渠道	關於模型的反饋和評論說明見Llama README。更多技術信息和使用方法見此處

模型參數

模型名稱	訓練數據	參數	輸入模態	輸出模態	上下文長度	令牌數量	知識截止日期
Llama 4 Scout (17Bx16E)	公開可用數據、授權數據以及Meta產品和服務中的信息，包括Instagram和Facebook上的公開帖子以及用戶與Meta AI的交互。更多信息見隱私中心	激活參數：17B 總參數：109B	多語言文本和圖像	多語言文本和代碼	10M	~40T	2024年8月
Llama 4 Maverick (17Bx128E)	公開可用數據、授權數據以及Meta產品和服務中的信息，包括Instagram和Facebook上的公開帖子以及用戶與Meta AI的交互。更多信息見隱私中心	激活參數：17B 總參數：400B	多語言文本和圖像	多語言文本和代碼	1M	~22T	2024年8月

預期用途

預期用例：適用於多語言的商業和研究用途。指令調優模型可用於類助手聊天和視覺推理任務，預訓練模型可用於自然語言生成。在視覺方面，可用於視覺識別、圖像推理、圖像描述和回答關於圖像的一般性問題。Llama 4社區許可證允許這些用例。
超出範圍：禁止違反適用法律法規（包括貿易合規法律）的使用方式；禁止違反可接受使用政策和Llama 4社區許可證的其他使用方式；禁止使用模型不支持的語言或功能。

硬件和軟件

訓練因素：使用自定義訓練庫、Meta定製的GPU集群和生產基礎設施進行預訓練。微調、量化、標註和評估也在生產基礎設施上進行。
訓練能源使用：模型預訓練在H100 - 80GB（TDP為700W）類型的硬件上累計使用了738萬個GPU小時的計算資源。
訓練溫室氣體排放：基於位置的估計總溫室氣體排放量為1999噸CO2eq。自2020年以來，Meta在全球運營中保持淨零溫室氣體排放，並使用100%的清潔和可再生能源匹配其電力使用，因此基於市場的總溫室氣體排放量為0噸CO2eq。

訓練數據

概述：Llama 4 Scout在約40萬億個令牌的多模態數據上進行預訓練，Llama 4 Maverick在約22萬億個令牌的多模態數據上進行預訓練。數據來源包括公開可用數據、授權數據以及Meta產品和服務中的信息。
數據新鮮度：預訓練數據的截止日期為2024年8月。

基準測試

預訓練模型

類別	基準測試	樣本數	指標	Llama 3.1 70B	Llama 3.1 405B	Llama 4 Scout	Llama 4 Maverick
推理與知識	MMLU	5	macro_avg/acc_char	79.3	85.2	79.6	85.5
	MMLU - Pro	5	macro_avg/em	53.8	61.6	58.2	62.9
	MATH	4	em_maj1@1	41.6	53.5	50.3	61.2
代碼	MBPP	3	pass@1	66.4	74.4	67.8	77.6
多語言	TydiQA	1	average/f1	29.9	34.3	31.5	31.7
圖像	ChartQA	0	relaxed_accuracy	不支持多模態		83.4	85.3
	DocVQA	0	anls			89.4	91.6

指令調優模型

類別	基準測試	樣本數	指標	Llama 3.3 70B	Llama 3.1 405B	Llama 4 Scout	Llama 4 Maverick
圖像推理	MMMU	0	accuracy	不支持多模態		69.4	73.4
	MMMU Pro^	0	accuracy			52.2	59.6
	MathVista	0	accuracy			70.7	73.7
圖像理解	ChartQA	0	relaxed_accuracy			88.8	90.0
	DocVQA (test)	0	anls			94.4	94.4
編碼	LiveCodeBench (10/01/2024 - 02/01/2025)	0	pass@1	33.3	27.7	32.8	43.4
推理與知識	MMLU Pro	0	macro_avg/em	68.9	73.4	74.3	80.5
	GPQA Diamond	0	accuracy	50.5	49.0	57.2	69.8
多語言	MGSM	0	average/em	91.1	91.6	90.6	92.3
長上下文	MTOB (half book) eng->kgv/kgv->eng	-	chrF	上下文窗口為128K		42.2/36.6	54.0/46.4
	MTOB (full book) eng->kgv/kgv->eng	-	chrF			39.7/36.3	50.8/46.7

^MMMU Pro的報告數據為標準任務和視覺任務的平均值

量化

Llama 4 Scout模型以BF16權重發布，可通過即時int4量化適配單個H100 GPU。
Llama 4 Maverick模型以BF16和FP8量化權重發布。FP8量化權重可在單個H100 DGX主機上運行，同時保持模型質量。我們還提供了即時int4量化代碼，以減少性能損失。

安全保障

模型級微調

微調數據：採用多方面的數據收集方法，結合人工生成數據和合成數據，通過LLM分類器選擇高質量的提示和響應，提高數據質量。
拒絕率：在Llama 3的基礎上，降低模型對良性提示的拒絕率，將邊界和對抗性提示納入安全數據策略，並調整安全數據響應以遵循語氣指南。
語氣：改進拒絕語氣，使模型響應更自然，去除說教和過度道德化的語言，修正格式問題。
系統提示：Llama 4更易於控制，通過有效的系統提示可減少誤拒絕和模板化語言，提高對話性和格式使用的準確性。

Llama 4系統保護

大型語言模型應與其他防護措施結合部署。我們提供了系統級保護工具，如Llama Guard、Prompt Guard和Code Shield，開發者可將其與Llama模型或其他LLM一起使用。所有參考實現演示默認包含這些保護措施。

評估

常見用例評估：評估常見應用場景（如聊天機器人、視覺問答）的安全風險，構建對抗性評估數據集，評估Llama模型和Llama Guard 3組成的系統。
能力評估：評估模型特定能力的漏洞，構建專門的基準測試，如長上下文、多語言、編碼和記憶等。

紅隊測試

定期進行紅隊測試，通過對抗性提示發現風險，與專家合作確定紅隊目標，改進基準測試和安全調優數據集。

關鍵風險

CBRNE（化學、生物、放射、核和爆炸物）幫助性：評估Llama 4在化學和生物武器擴散方面的風險，進行額外的紅隊測試和內容政策違規評估。
兒童安全：在預訓練階段進行數據過濾，評估模型在兒童安全方面的風險，擴展評估基準以覆蓋多圖像和多語言能力。
網絡攻擊支持：評估Llama 4是否會導致災難性網絡威脅，進行威脅建模，測試模型在自動化網絡攻擊、識別和利用安全漏洞以及自動化有害工作流方面的能力。

社區

開放社區合作：積極參與開放聯盟，如AI聯盟、AI合作組織和MLCommons，推動安全標準化和透明度。鼓勵社區採用MLCommons概念驗證評估分類法，促進安全和內容評估的協作和透明度。
Llama影響贈款計劃：設立Llama影響贈款計劃，支持在教育、氣候和開放創新領域的應用。
社區資源：提供輸出報告機制和漏洞賞金計劃，藉助社區力量改進Llama技術。

🔧 技術細節

訓練因素

使用自定義訓練庫、Meta定製的GPU集群和生產基礎設施進行預訓練。微調、量化、標註和評估也在生產基礎設施上進行。

訓練能源使用

模型預訓練在H100 - 80GB（TDP為700W）類型的硬件上累計使用了738萬個GPU小時的計算資源。訓練時間為每個模型訓練所需的總GPU時間，功耗為每個GPU設備的峰值功率容量，已考慮電源使用效率。

訓練溫室氣體排放

基於位置的估計總溫室氣體排放量為1999噸CO2eq。自2020年以來，Meta在全球運營中保持淨零溫室氣體排放，並使用100%的清潔和可再生能源匹配其電力使用，因此基於市場的總溫室氣體排放量為0噸CO2eq。

量化

Llama 4 Scout模型以BF16權重發布，可通過即時int4量化適配單個H100 GPU。Llama 4 Maverick模型以BF16和FP8量化權重發布。FP8量化權重可在單個H100 DGX主機上運行，同時保持模型質量。我們還提供了即時int4量化代碼，以減少性能損失。

📄 許可證

本項目使用自定義商業許可證，Llama 4社區許可協議，詳情見此處。

許可證協議摘要

許可權利和再分發：授予非排他性、全球性、不可轉讓和免版稅的有限許可，允許使用、複製、分發、修改Llama材料。再分發時需提供許可證副本，並在相關網站、用戶界面等位置顯示“Built with Llama”。
額外商業條款：若產品或服務的月活躍用戶數超過7億，需向Meta申請許可證。
免責聲明：除非適用法律要求，Llama材料按“原樣”提供，Meta不提供任何形式的保證。
責任限制：Meta及其關聯方不對任何間接、特殊、後果性損害承擔責任。
知識產權：不授予商標許可，開發者可在符合規定的情況下使用“Llama”商標。開發者對自己創建的衍生作品和修改擁有所有權。
期限和終止：協議自接受或訪問Llama材料時生效，Meta可在開發者違反協議條款時終止協議。協議終止後，開發者需刪除並停止使用Llama材料。
適用法律和管轄權：協議受加利福尼亞州法律管轄，相關糾紛由加利福尼亞州法院專屬管轄。