開源Llama-4 Scout模型 - 支持多語言文本圖像理解，免費部署易兼容

首頁

Llama 4 Scout 17B 16E Linearized Bnb Nf4 Bf16

由axolotl-quants開發

羊駝4 Scout是Meta發佈的170億參數混合專家模型(MoE)，支持多語言文本和圖像理解，採用線性化專家模塊設計便於PEFT/LoRA兼容。

多模態融合

Transformers

支持多種語言開源協議:其他 #混合專家架構 #多模態理解 #超長上下文處理

下載量 6,861

發布時間 : 4/7/2025

模型概述

基於混合專家架構的多模態AI模型，在文本生成、圖像理解和代碼生成方面表現優異，支持12種語言。

模型特點

線性化專家模塊

專家模塊經特殊處理實現線性化，顯著提升與PEFT/LoRA等微調技術的兼容性

多模態支持

支持早期融合的文本和圖像聯合處理，圖像理解上限為5張輸入圖

長上下文處理

Scout模型支持10M tokens的上下文長度，Maverick支持1M tokens

模型能力

多語言文本生成

圖像內容理解

代碼生成與補全

長文檔翻譯

多輪對話

使用案例

商業應用

智能客服

部署多語言客服系統，支持圖文混合問答

在MMLU基準測試達到79.6分

研究開發

合成數據生成

利用模型生成訓練數據用於下游任務

🚀 Llama 4模型

Llama 4是一系列原生多模態AI模型，支持文本和多模態交互體驗。這些模型採用混合專家架構，在文本和圖像理解方面表現卓越。

🚀 快速開始

線性化專家版本

這是該模型的4位量化版本，專家模塊被拆分併線性化，以便與PEFT/LoRA更好地配合使用。若要在Axolotl中使用，只需在YAML文件中添加以下內容：

llama4_linearized_experts: true

Axolotl示例YAML文件

使用transformers庫調用

請確保已安裝transformers v4.51.0，或使用pip install -U transformers進行升級。

from transformers import pipeline
import torch

model_id = "meta-llama/Llama-4-Scout-17B-16E"

pipe = pipeline(
    "text-generation",
    model=model_id,
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

output = pipe("Roses are red,", max_new_tokens=200)

✨ 主要特性

多語言支持：支持阿拉伯語、英語、法語、德語、印地語、印尼語、意大利語、葡萄牙語、西班牙語、他加祿語、泰語和越南語等多種語言。
多模態能力：原生支持文本和圖像理解，可用於視覺識別、圖像推理、圖像描述等任務。
高性能表現：在多個基準測試中表現出色，如MMLU、MATH、MBPP等。
靈活部署：提供不同量化版本，可根據硬件資源選擇合適的版本進行部署。

📦 安裝指南

使用前請確保已安裝transformers v4.51.0，可使用以下命令進行安裝或升級：

pip install -U transformers

💻 使用示例

基礎用法

from transformers import pipeline
import torch

model_id = "meta-llama/Llama-4-Scout-17B-16E"

pipe = pipeline(
    "text-generation",
    model=model_id,
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

output = pipe("Roses are red,", max_new_tokens=200)

📚 詳細文檔

模型信息

屬性	詳情
模型開發者	Meta
模型架構	自迴歸語言模型，採用混合專家（MoE）架構，並結合早期融合實現原生多模態能力
訓練數據	公開可用數據、授權數據以及Meta產品和服務中的信息，包括Instagram和Facebook上的公開帖子以及用戶與Meta AI的交互數據。更多信息請參考隱私中心
模型參數	Llama 4 Scout：170億（激活），1090億（總計）；Llama 4 Maverick：170億（激活），4000億（總計）
輸入模態	多語言文本和圖像
輸出模態	多語言文本和代碼
上下文長度	Llama 4 Scout：10M；Llama 4 Maverick：1M
標記數量	Llama 4 Scout：~40T；Llama 4 Maverick：~22T
知識截止日期	2024年8月

預期用途

預期用例：適用於商業和研究領域的多語言應用，如對話式助手、視覺推理、自然語言生成等。
超出範圍：違反適用法律法規（包括貿易合規法律）的使用；違反可接受使用政策和Llama 4社區許可協議的使用；使用不支持的語言或功能。

硬件和軟件

訓練因素：使用自定義訓練庫、Meta定製的GPU集群和生產基礎設施進行預訓練。微調、量化、標註和評估也在生產基礎設施上進行。
訓練能耗：模型預訓練累計使用了738萬個H100-80GB GPU小時的計算資源。

訓練數據

概述：Llama 4 Scout在約40萬億個標記的多模態數據上進行預訓練，Llama 4 Maverick在約22萬億個標記的多模態數據上進行預訓練。
數據新鮮度：預訓練數據的截止日期為2024年8月。

基準測試

模型類型	類別	基準測試	樣本數量	指標	Llama 3.1 70B	Llama 3.1 405B	Llama 4 Scout	Llama 4 Maverick
預訓練模型	推理與知識	MMLU	5	macro_avg/acc_char	79.3	85.2	79.6	85.5
		MMLU-Pro	5	macro_avg/em	53.8	61.6	58.2	62.9
		MATH	4	em_maj1@1	41.6	53.5	50.3	61.2
	代碼	MBPP	3	pass@1	66.4	74.4	67.8	77.6
	多語言	TydiQA	1	average/f1	29.9	34.3	31.5	31.7
	圖像	ChartQA	0	relaxed_accuracy	無多模態支持		83.4	85.3
		DocVQA	0	anls			89.4	91.6
指令微調模型	圖像推理	MMMU	0	accuracy	無多模態支持		69.4	73.4
		MMMU Pro^	0	accuracy			52.2	59.6
		MathVista	0	accuracy			70.7	73.7
	圖像理解	ChartQA	0	relaxed_accuracy			88.8	90.0
		DocVQA (test)	0	anls			94.4	94.4
	編碼	LiveCodeBench (10/01/2024-02/01/2025)	0	pass@1	33.3	27.7	32.8	43.4
	推理與知識	MMLU Pro	0	macro_avg/acc	68.9	73.4	74.3	80.5
		GPQA Diamond	0	accuracy	50.5	49.0	57.2	69.8
	多語言	MGSM	0	average/em	91.1	91.6	90.6	92.3
	長上下文	MTOB (half book) eng->kgv/kgv->eng	-	chrF	上下文窗口為128K		42.2/36.6	54.0/46.4
		MTOB (full book) eng->kgv/kgv->eng	-	chrF			39.7/36.3	50.8/46.7