开源Llama-4 Scout模型 - 支持多语言文本图像理解，免费部署易兼容

首页

Llama 4 Scout 17B 16E Linearized Bnb Nf4 Bf16

由 axolotl-quants 开发

羊驼4 Scout是Meta发布的170亿参数混合专家模型(MoE)，支持多语言文本和图像理解，采用线性化专家模块设计便于PEFT/LoRA兼容。

多模态融合

Transformers

支持多种语言开源协议:其他 #混合专家架构 #多模态理解 #超长上下文处理

下载量 6,861

发布时间 : 4/7/2025

模型简介

基于混合专家架构的多模态AI模型，在文本生成、图像理解和代码生成方面表现优异，支持12种语言。

模型特点

线性化专家模块

专家模块经特殊处理实现线性化，显著提升与PEFT/LoRA等微调技术的兼容性

多模态支持

支持早期融合的文本和图像联合处理，图像理解上限为5张输入图

长上下文处理

Scout模型支持10M tokens的上下文长度，Maverick支持1M tokens

模型能力

多语言文本生成

图像内容理解

代码生成与补全

长文档翻译

多轮对话

使用案例

商业应用

智能客服

部署多语言客服系统，支持图文混合问答

在MMLU基准测试达到79.6分

研究开发

合成数据生成

利用模型生成训练数据用于下游任务

🚀 Llama 4模型

Llama 4是一系列原生多模态AI模型，支持文本和多模态交互体验。这些模型采用混合专家架构，在文本和图像理解方面表现卓越。

🚀 快速开始

线性化专家版本

这是该模型的4位量化版本，专家模块被拆分并线性化，以便与PEFT/LoRA更好地配合使用。若要在Axolotl中使用，只需在YAML文件中添加以下内容：

llama4_linearized_experts: true

Axolotl示例YAML文件

使用transformers库调用

请确保已安装transformers v4.51.0，或使用pip install -U transformers进行升级。

from transformers import pipeline
import torch

model_id = "meta-llama/Llama-4-Scout-17B-16E"

pipe = pipeline(
    "text-generation",
    model=model_id,
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

output = pipe("Roses are red,", max_new_tokens=200)

✨ 主要特性

多语言支持：支持阿拉伯语、英语、法语、德语、印地语、印尼语、意大利语、葡萄牙语、西班牙语、他加禄语、泰语和越南语等多种语言。
多模态能力：原生支持文本和图像理解，可用于视觉识别、图像推理、图像描述等任务。
高性能表现：在多个基准测试中表现出色，如MMLU、MATH、MBPP等。
灵活部署：提供不同量化版本，可根据硬件资源选择合适的版本进行部署。

📦 安装指南

使用前请确保已安装transformers v4.51.0，可使用以下命令进行安装或升级：

pip install -U transformers

💻 使用示例

基础用法

from transformers import pipeline
import torch

model_id = "meta-llama/Llama-4-Scout-17B-16E"

pipe = pipeline(
    "text-generation",
    model=model_id,
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

output = pipe("Roses are red,", max_new_tokens=200)

📚 详细文档

模型信息

属性	详情
模型开发者	Meta
模型架构	自回归语言模型，采用混合专家（MoE）架构，并结合早期融合实现原生多模态能力
训练数据	公开可用数据、授权数据以及Meta产品和服务中的信息，包括Instagram和Facebook上的公开帖子以及用户与Meta AI的交互数据。更多信息请参考隐私中心
模型参数	Llama 4 Scout：170亿（激活），1090亿（总计）；Llama 4 Maverick：170亿（激活），4000亿（总计）
输入模态	多语言文本和图像
输出模态	多语言文本和代码
上下文长度	Llama 4 Scout：10M；Llama 4 Maverick：1M
标记数量	Llama 4 Scout：~40T；Llama 4 Maverick：~22T
知识截止日期	2024年8月

预期用途

预期用例：适用于商业和研究领域的多语言应用，如对话式助手、视觉推理、自然语言生成等。
超出范围：违反适用法律法规（包括贸易合规法律）的使用；违反可接受使用政策和Llama 4社区许可协议的使用；使用不支持的语言或功能。

硬件和软件

训练因素：使用自定义训练库、Meta定制的GPU集群和生产基础设施进行预训练。微调、量化、标注和评估也在生产基础设施上进行。
训练能耗：模型预训练累计使用了738万个H100-80GB GPU小时的计算资源。

训练数据

概述：Llama 4 Scout在约40万亿个标记的多模态数据上进行预训练，Llama 4 Maverick在约22万亿个标记的多模态数据上进行预训练。
数据新鲜度：预训练数据的截止日期为2024年8月。

基准测试

模型类型	类别	基准测试	样本数量	指标	Llama 3.1 70B	Llama 3.1 405B	Llama 4 Scout	Llama 4 Maverick
预训练模型	推理与知识	MMLU	5	macro_avg/acc_char	79.3	85.2	79.6	85.5
		MMLU-Pro	5	macro_avg/em	53.8	61.6	58.2	62.9
		MATH	4	em_maj1@1	41.6	53.5	50.3	61.2
	代码	MBPP	3	pass@1	66.4	74.4	67.8	77.6
	多语言	TydiQA	1	average/f1	29.9	34.3	31.5	31.7
	图像	ChartQA	0	relaxed_accuracy	无多模态支持		83.4	85.3
		DocVQA	0	anls			89.4	91.6
指令微调模型	图像推理	MMMU	0	accuracy	无多模态支持		69.4	73.4
		MMMU Pro^	0	accuracy			52.2	59.6
		MathVista	0	accuracy			70.7	73.7
	图像理解	ChartQA	0	relaxed_accuracy			88.8	90.0
		DocVQA (test)	0	anls			94.4	94.4
	编码	LiveCodeBench (10/01/2024-02/01/2025)	0	pass@1	33.3	27.7	32.8	43.4
	推理与知识	MMLU Pro	0	macro_avg/acc	68.9	73.4	74.3	80.5
		GPQA Diamond	0	accuracy	50.5	49.0	57.2	69.8
	多语言	MGSM	0	average/em	91.1	91.6	90.6	92.3
	长上下文	MTOB (half book) eng->kgv/kgv->eng	-	chrF	上下文窗口为128K		42.2/36.6	54.0/46.4
		MTOB (full book) eng->kgv/kgv->eng	-	chrF			39.7/36.3	50.8/46.7