Llama 4 Scout多模态AI模型 - 开源支持12种语言文本与图像交互

首页

Llama 4 Scout 17B 16E Instruct

由 meta-llama 开发

Llama 4 Scout是Meta开发的多模态AI模型，采用混合专家架构，支持12种语言的文本和图像交互，具有17B激活参数和109B总参数。

多模态融合

Transformers

支持多种语言开源协议:其他 #多模态混合专家 #12语言原生支持 #10M长上下文

下载量 817.62k

发布时间 : 4/2/2025

模型简介

原生多模态大语言模型，在文本和图像理解方面具有行业领先性能，支持商业和研究用途。

模型特点

多模态支持

同时处理文本和图像输入，实现跨模态理解与生成

混合专家架构

采用16专家配置，在保持17B激活参数下实现109B总参数容量

长上下文处理

支持10M tokens的上下文窗口，适合处理长文档和复杂任务

多语言能力

原生支持12种语言，涵盖亚洲、欧洲主要语系

模型能力

多语言文本生成

图像内容理解

跨模态推理

代码生成

长文档翻译

视觉问答

使用案例

智能助手

多模态聊天机器人

同时处理用户上传的图片和文本提问

可生成结合视觉信息的自然语言回复

内容分析

跨媒体内容理解

分析图文混合内容的关系和语义

实现广告合规性检查等商业场景

教育

数学视觉解题

解析包含数学公式和图表的问题

在MathVista基准测试达到70.7分

🚀 Llama 4模型

Llama 4是一系列原生多模态AI模型，能够提供文本和多模态体验。这些模型采用混合专家架构，在文本和图像理解方面具有行业领先的性能。

🚀 快速开始

安装依赖

请确保你已安装 transformers v4.51.0，或者使用以下命令进行升级：

pip install -U transformers

代码示例

from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch

model_id = "meta-llama/Llama-4-Scout-17B-16E-Instruct"

processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(
    model_id,
    attn_implementation="flex_attention",
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

url1 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/0052a70beed5bf71b92610a43a52df6d286cd5f3/diffusers/rabbit.jpg"
url2 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/datasets/cat_style_layout.png"
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "url": url1},
            {"type": "image", "url": url2},
            {"type": "text", "text": "Can you describe how these two images are similar, and how they differ?"},
        ]
    },
]

inputs = processor.apply_chat_template(
    messages,
    add_generation_prompt=True,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
).to(model.device)

outputs = model.generate(
    **inputs,
    max_new_tokens=256,
)

response = processor.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])[0]
print(response)
print(outputs[0])

✨ 主要特性

多模态能力：支持文本和图像的多模态输入和输出，可用于视觉识别、图像推理、图像描述等任务。
混合专家架构：采用混合专家（MoE）架构，在文本和图像理解方面表现出色。
多语言支持：支持多种语言，可用于商业和研究领域。
高效模型：推出了Llama 4 Scout和Llama 4 Maverick两个高效模型。

📦 安装指南

请确保你已安装 transformers v4.51.0，或者使用以下命令进行升级：

pip install -U transformers

💻 使用示例

基础用法

from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch

model_id = "meta-llama/Llama-4-Scout-17B-16E-Instruct"

processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(
    model_id,
    attn_implementation="flex_attention",
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

url1 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/0052a70beed5bf71b92610a43a52df6d286cd5f3/diffusers/rabbit.jpg"
url2 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/datasets/cat_style_layout.png"
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "url": url1},
            {"type": "image", "url": url2},
            {"type": "text", "text": "Can you describe how these two images are similar, and how they differ?"},
        ]
    },
]

inputs = processor.apply_chat_template(
    messages,
    add_generation_prompt=True,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
).to(model.device)

outputs = model.generate(
    **inputs,
    max_new_tokens=256,
)

response = processor.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])[0]
print(response)
print(outputs[0])

📚 详细文档

模型信息

属性	详情
模型开发者	Meta
模型架构	自回归语言模型，采用混合专家（MoE）架构，支持原生多模态的早期融合
支持语言	阿拉伯语、英语、法语、德语、印地语、印尼语、意大利语、葡萄牙语、西班牙语、他加禄语、泰语和越南语
模型发布日期	2025年4月5日
状态	静态模型，基于离线数据集训练。未来可能会发布调优后的版本
许可证	Llama 4社区许可证，详情见此处
反馈渠道	关于模型的反馈或评论说明见Llama README。更多技术信息见此处

模型参数

模型名称	训练数据	参数	输入模态	输出模态	上下文长度	令牌数量	知识截止日期
Llama 4 Scout (17Bx16E)	公开可用数据、授权数据以及Meta产品和服务的信息，包括Instagram和Facebook的公开帖子以及用户与Meta AI的交互。详情见隐私中心	激活参数：170亿总参数：1090亿	多语言文本和图像	多语言文本和代码	10M	~40T	2024年8月
Llama 4 Maverick (17Bx128E)	公开可用数据、授权数据以及Meta产品和服务的信息，包括Instagram和Facebook的公开帖子以及用户与Meta AI的交互。详情见隐私中心	激活参数：170亿总参数：4000亿	多语言文本和图像	多语言文本和代码	1M	~22T	2024年8月

预期用途

预期用例：Llama 4适用于多语言的商业和研究用途。指令调优模型适用于类似助手的聊天和视觉推理任务，而预训练模型可用于自然语言生成。在视觉方面，Llama 4模型还针对视觉识别、图像推理、图像描述和回答关于图像的一般问题进行了优化。Llama 4模型集合还支持利用其模型的输出来改进其他模型，包括合成数据生成和蒸馏。Llama 4社区许可证允许这些用例。
超出范围的使用：以任何违反适用法律法规（包括贸易合规法律）的方式使用；以可接受使用政策和Llama 4社区许可证禁止的任何其他方式使用；在本模型卡片中未明确提及支持的语言或功能中使用。

硬件和软件

训练因素：使用自定义训练库、Meta的自定义GPU集群和生产基础设施进行预训练。微调、量化、标注和评估也在生产基础设施上进行。
训练能源使用：模型预训练在H100 - 80GB（TDP为700W）类型的硬件上累计使用了738万个GPU小时的计算资源。训练时间是每个模型训练所需的总GPU时间，功耗是每个GPU设备的峰值功率容量，并根据功率使用效率进行了调整。
训练温室气体排放：基于位置的估计总温室气体排放量为1999吨CO2eq。自2020年以来，Meta在全球运营中保持净零温室气体排放，并以清洁能源和可再生能源满足其100%的电力使用；因此，基于市场的训练总温室气体排放量为0吨CO2eq。

模型名称	训练时间（GPU小时）	训练功耗（W）	基于位置的训练温室气体排放量（吨CO2eq）
Llama 4 Scout	500万	700	1354
Llama 4 Maverick	238万	700	645
总计	738万	-	1999

训练数据

概述：Llama 4 Scout在约40万亿个令牌的多模态数据上进行预训练，Llama 4 Maverick在约22万亿个令牌的多模态数据上进行预训练。这些数据来自公开可用数据、授权数据以及Meta产品和服务的信息，包括Instagram和Facebook的公开帖子以及用户与Meta AI的交互。
数据新鲜度：预训练数据的截止日期为2024年8月。

基准测试

预训练模型

类别	基准测试	样本数	指标	Llama 3.1 70B	Llama 3.1 405B	Llama 4 Scout	Llama 4 Maverick
推理与知识	MMLU	5	macro_avg/acc_char	79.3	85.2	79.6	85.5
	MMLU - Pro	5	macro_avg/em	53.8	61.6	58.2	62.9
	MATH	4	em_maj1@1	41.6	53.5	50.3	61.2
代码	MBPP	3	pass@1	66.4	74.4	67.8	77.6
多语言	TydiQA	1	average/f1	29.9	34.3	31.5	31.7
图像	ChartQA	0	relaxed_accuracy	不支持多模态		83.4	85.3
	DocVQA	0	anls			89.4	91.6

指令调优模型

类别	基准测试	样本数	指标	Llama 3.3 70B	Llama 3.1 405B	Llama 4 Scout	Llama 4 Maverick
图像推理	MMMU	0	准确率	不支持多模态		69.4	73.4
	MMMU Pro^	0	准确率			52.2	59.6
	MathVista	0	准确率			70.7	73.7
图像理解	ChartQA	0	relaxed_accuracy			88.8	90.0
	DocVQA (测试)	0	anls			94.4	94.4
编码	LiveCodeBench (2024年10月1日 - 2025年2月1日)	0	pass@1	33.3	27.7	32.8	43.4
推理与知识	MMLU Pro	0	macro_avg/acc	68.9	73.4	74.3	80.5
	GPQA Diamond	0	准确率	50.5	49.0	57.2	69.8
多语言	MGSM	0	average/em	91.1	91.6	90.6	92.3
长上下文	MTOB (半本书) eng->kgv/kgv->eng	-	chrF	上下文窗口为128K		42.2/36.6	54.0/46.4
	MTOB (整本书) eng->kgv/kgv->eng	-	chrF			39.7/36.3	50.8/46.7

^MMMU Pro的报告数字是标准任务和视觉任务的平均值

量化

Llama 4 Scout模型以BF16权重发布，但可以通过即时int4量化适配单个H100 GPU。
Llama 4 Maverick模型以BF16和FP8量化权重发布。FP8量化权重可以在单个H100 DGX主机上运行，同时保持质量。我们还提供了即时int4量化的代码，以最小化性能下降。

安全保障

模型级微调

微调数据：采用多方面的数据收集方法，将供应商提供的人工生成数据与合成数据相结合，以降低潜在的安全风险。开发了许多基于大语言模型（LLM）的分类器，以精心选择高质量的提示和响应，加强数据质量控制。
拒绝率：在Llama 3模型的基础上，着重降低Llama 4模型对良性提示的拒绝率。在安全数据策略中包括了边界提示和对抗性提示，并修改了安全数据响应以遵循语气指南。
语气：扩展了Llama 3模型在拒绝语气方面的工作，使模型听起来更加自然。目标是去除说教和过度道德化的语言，并纠正格式问题，包括正确使用标题、列表、表格等。
系统提示：Llama 4是一个更易于引导的模型，意味着可以轻松调整响应以满足特定的开发者需求。有效的系统提示可以显著提高大语言模型的性能。特别是，使用系统提示可以有效减少错误拒绝和大语言模型中常见的模板化或“说教式”语言模式。它们还可以提高对话性和适当格式的使用。

系统保护

提供系统级的保护措施，如Llama Guard、Prompt Guard和Code Shield，开发者应将这些措施与Llama模型或其他大语言模型一起部署。所有参考实现演示默认包含这些安全保障措施，以便开发者可以直接受益于系统级安全。

评估

常见用例评估：评估Llama模型在常见用例以及特定能力方面的表现。常见用例评估衡量了最常见构建应用程序（包括聊天机器人、视觉问答）的系统安全风险。构建了专门的对抗性评估数据集，并评估了由Llama模型和Llama Guard 3组成的系统，以过滤输入提示和输出响应。建议为特定用例构建专门的评估数据集。
能力评估：衡量Llama模型在特定能力方面的漏洞，为此设计了专门的基准测试，包括长上下文、多语言、编码或记忆。

红队测试

定期进行红队测试，目标是通过对抗性提示发现风险，并利用这些经验教训改进基准测试和安全调优数据集。与关键风险领域的专家合作，了解模型可能对社会造成的意外危害。根据这些对话，为红队制定一组对抗性目标，如提取有害信息或重新编程模型以采取潜在有害的行为。红队成员包括网络安全、对抗性机器学习和完整性方面的专家，以及具有特定地理市场完整性问题背景的多语言内容专家。

关键风险

CBRNE（化学、生物、放射、核和爆炸材料）帮助性：评估Llama 4在化学和生物武器扩散方面的风险，应用专家设计的和其他有针对性的评估，以确定使用Llama 4是否会显著增加恶意行为者使用此类武器进行攻击的能力。还进行了额外的红队测试和评估，以检查是否违反了与该风险领域相关的内容政策。
儿童安全：在模型中使用数据过滤等预训练方法作为减轻儿童安全风险的第一步。由专家团队评估训练后模型在儿童安全方面的风险，以指导额外的模型微调和平深入的红队测试。还扩展了儿童安全评估基准，以涵盖Llama 4的多图像和多语言能力。
网络攻击启用：进行网络评估，调查Llama 4是否有足够的能力导致灾难性的威胁场景。进行威胁建模练习，确定在关键攻击向量方面自动化操作或增强人类能力所需的特定模型能力，包括技能水平和速度。然后确定并开发针对这些能力的挑战，以测试Llama 4和同类模型。具体而言，重点评估Llama 4自动化网络攻击、识别和利用安全漏洞以及自动化有害工作流程的能力。总体而言，发现Llama 4模型不会引入可能导致灾难性网络后果的风险。

社区

积极参与开放联盟，包括AI联盟、AI合作组织和MLCommons，为安全标准化和透明度做出贡献。鼓励社区采用MLCommons概念验证评估等分类法，以促进安全和内容评估的协作和透明度。信任工具已开源，供社区使用，并广泛分发到包括云服务提供商在内的生态系统合作伙伴。鼓励社区为Github仓库做出贡献。

设立了Llama影响赠款计划，以识别和支持Meta的Llama模型在教育、气候和开放创新三个类别中对社会有益的最有吸引力的应用。数百份申请中的20名决赛选手名单见此处。

还建立了一套资源，包括输出报告机制和漏洞赏金计划，以在社区的帮助下不断改进Llama技术。

注意事项和限制

我们的AI基于言论自由的价值观，帮助人们使用我们的技术进行探索、辩论和创新。尊重人们的自主权，使他们能够选择如何体验、交互和构建AI。我们的AI促进思想的开放交流。

Llama 4旨在为所有人服务，并适用于广泛的用例。因此，它设计为对不同背景、经验和观点的人都可访问。Llama 4以用户的实际情况和需求为出发点，不插入不必要的判断，同时认识到即使在某些情况下可能存在问题的内容，在其他情况下也可能有价值。它尊重所有用户的自主权，特别是在推动创新和进步的自由思想和表达价值观方面。

Llama 4是一项新技术，与任何新技术一样，其使用存在风险。到目前为止进行的测试尚未涵盖，也不可能涵盖所有场景。因此，与所有大语言模型一样，Llama 4的潜在输出无法提前预测，模型在某些情况下可能会对用户提示产生不准确或其他令人反感的响应。因此，在部署Llama 4模型的任何应用程序之前，开发者应针对其特定应用进行安全测试和调优。我们还鼓励开源社区将Llama用于研究和构建解决新兴风险的先进工具。请参考可用资源，包括我们的开发者使用指南：AI保护、Llama保护解决方案和其他资源以了解更多信息。