Llama-4-Scout-17B-16E-Instruct-INT4开源模型 - 支持图文交互的多语言视觉处理帮手

首页

Llama 4 Scout 17B 16E Instruct INT4

由 fahadh4ilyas 开发

Llama 4系列是Meta推出的原生多模态AI模型，采用混合专家架构，支持文本和图像交互，在多种语言和视觉任务中表现卓越。

多模态融合

Transformers

支持多种语言开源协议:其他 #多模态交互 #混合专家架构 #多语言支持

下载量 1,864

发布时间 : 4/18/2025

模型简介

Llama 4系列模型是原生多模态AI模型，支持文本和多模态交互体验。这些模型采用混合专家架构，在文本和图像理解方面表现出色，为Llama生态开启了新篇章。

模型特点

原生多模态支持

原生支持文本和图像交互，提供更丰富的使用场景。

混合专家架构

采用混合专家（MoE）架构，在文本和图像理解方面表现卓越。

高效模型

推出Llama 4 Scout和Llama 4 Maverick两款高效模型，满足不同需求。

多语言支持

支持12种语言，包括阿拉伯语、英语、法语、德语等。

模型能力

文本生成

图像理解

视觉推理

图像描述

多模态交互

多语言支持

使用案例

商业和研究

助手聊天

适用于类似助手的聊天任务，提供多语言支持。

视觉推理

适用于视觉识别、图像推理和图像描述任务。

数据生成

合成数据生成

利用模型输出改进其他模型，包括合成数据生成和蒸馏。

🚀 Llama 4模型

🚀 快速开始

安装依赖

请确保你已安装 transformers v4.51.0，若未安装，可使用以下命令进行升级：

pip install -U transformers

使用示例

from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch

model_id = "meta-llama/Llama-4-Scout-17B-16E-Instruct"

processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(
    model_id,
    attn_implementation="flex_attention",
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

url1 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/0052a70beed5bf71b92610a43a52df6d286cd5f3/diffusers/rabbit.jpg"
url2 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/datasets/cat_style_layout.png"
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "url": url1},
            {"type": "image", "url": url2},
            {"type": "text", "text": "Can you describe how these two images are similar, and how they differ?"},
        ]
    },
]

inputs = processor.apply_chat_template(
    messages,
    add_generation_prompt=True,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
).to(model.device)

outputs = model.generate(
    **inputs,
    max_new_tokens=256,
)

response = processor.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])[0]
print(response)
print(outputs[0])

✨ 主要特性

多模态体验：原生支持文本和多模态交互，提供更丰富的使用场景。
混合专家架构：采用混合专家（MoE）架构，在文本和图像理解方面表现卓越。
高效模型：推出Llama 4 Scout和Llama 4 Maverick两款高效模型，满足不同需求。

📦 安装指南

请确保你已安装 transformers v4.51.0，若未安装，可使用以下命令进行升级：

pip install -U transformers

💻 使用示例

基础用法

from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch

model_id = "meta-llama/Llama-4-Scout-17B-16E-Instruct"

processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(
    model_id,
    attn_implementation="flex_attention",
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

url1 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/0052a70beed5bf71b92610a43a52df6d286cd5f3/diffusers/rabbit.jpg"
url2 = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/datasets/cat_style_layout.png"
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "url": url1},
            {"type": "image", "url": url2},
            {"type": "text", "text": "Can you describe how these two images are similar, and how they differ?"},
        ]
    },
]

inputs = processor.apply_chat_template(
    messages,
    add_generation_prompt=True,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
).to(model.device)

outputs = model.generate(
    **inputs,
    max_new_tokens=256,
)

response = processor.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])[0]
print(response)
print(outputs[0])

📚 详细文档

模型信息

属性	详情
模型开发者	Meta
模型架构	Llama 4模型是自回归语言模型，采用混合专家（MoE）架构，并结合早期融合实现原生多模态。
支持语言	阿拉伯语、英语、法语、德语、印地语、印尼语、意大利语、葡萄牙语、西班牙语、他加禄语、泰语和越南语。
模型发布日期	2025年4月5日
状态	这是一个基于离线数据集训练的静态模型。随着我们根据社区反馈改进模型行为，未来可能会发布调优后的版本。
许可证	自定义商业许可证，Llama 4社区许可协议，详情见：https://github.com/meta-llama/llama-models/blob/main/models/llama4/LICENSE
反馈渠道	有关模型的反馈或评论说明可在Llama README 中找到。有关生成参数和如何在应用中使用Llama 4的更多技术信息，请访问这里。

模型参数

模型名称	训练数据	参数	输入模态	输出模态	上下文长度	令牌数量	知识截止日期
Llama 4 Scout (17Bx16E)	公开可用数据、许可数据以及Meta产品和服务中的信息。包括Instagram和Facebook上的公开帖子以及人们与Meta AI的交互。更多信息请见隐私中心。	激活：17B 总计：109B	多语言文本和图像	多语言文本和代码	10M	~40T	2024年8月
Llama 4 Maverick (17Bx128E)	同上	激活：17B 总计：400B	多语言文本和图像	多语言文本和代码	1M	~22T	2024年8月

预期用途

预期用例：Llama 4适用于多种语言的商业和研究用途。指令调优模型适用于类似助手的聊天和视觉推理任务，而预训练模型可用于自然语言生成。在视觉方面，Llama 4模型还针对视觉识别、图像推理、图像描述和回答有关图像的一般问题进行了优化。Llama 4模型系列还支持利用其模型输出改进其他模型，包括合成数据生成和蒸馏。Llama 4社区许可允许这些用例。
超出范围：以任何违反适用法律法规（包括贸易合规法律）的方式使用。以任何违反可接受使用政策和Llama 4社区许可的方式使用。在本模型卡中未明确支持的语言或功能范围内使用。

硬件和软件

训练因素：我们使用自定义训练库、Meta定制的GPU集群和生产基础设施进行预训练。微调、量化、标注和评估也在生产基础设施上进行。
训练能耗：模型预训练在H100 - 80GB（TDP为700W）类型的硬件上累计使用了 738万 GPU小时的计算资源，详情见下表。训练时间是每个模型训练所需的总GPU时间，功耗是每个GPU设备的峰值功率容量，并根据电源使用效率进行了调整。 | 模型名称 | 训练时间（GPU小时） | 训练功耗（W） | 基于位置的训练温室气体排放量（吨CO2eq） | 基于市场的训练温室气体排放量（吨CO2eq） | | ---- | ---- | ---- | ---- | ---- | | Llama 4 Scout | 500万 | 700 | 1354 | 0 | | Llama 4 Maverick | 238万 | 700 | 645 | 0 | | 总计 | 738万 | - | 1999 | 0 |

训练数据

概述：Llama 4 Scout在约40万亿个令牌的多模态数据上进行预训练，Llama 4 Maverick在约22万亿个令牌的多模态数据上进行预训练。这些数据来自公开可用数据、许可数据以及Meta产品和服务中的信息，包括Instagram和Facebook上的公开帖子以及人们与Meta AI的交互。
数据新鲜度：预训练数据的截止日期为2024年8月。

基准测试

预训练模型

预训练模型	类别	基准测试	样本数量	指标	Llama 3.1 70B	Llama 3.1 405B	Llama 4 Scout
推理与知识	MMLU	5	macro_avg/acc_char	79.3	85.2	79.6	85.5
	MMLU - Pro	5	macro_avg/em	53.8	61.6	58.2	62.9
	MATH	4	em_maj1@1	41.6	53.5	50.3	61.2
代码	MBPP	3	pass@1	66.4	74.4	67.8	77.6
多语言	TydiQA	1	average/f1	29.9	34.3	31.5	31.7
图像	ChartQA	0	relaxed_accuracy	不支持多模态		83.4	85.3
	DocVQA	0	anls			89.4	91.6

指令调优模型

指令调优模型	类别	基准测试	样本数量	指标	Llama 3.3 70B	Llama 3.1 405B	Llama 4 Scout
图像推理	MMMU	0	准确率	不支持多模态		69.4	73.4
	MMMU Pro^	0	准确率			52.2	59.6
	MathVista	0	准确率			70.7	73.7
图像理解	ChartQA	0	relaxed_accuracy			88.8	90.0
	DocVQA (测试)	0	anls			94.4	94.4
代码	LiveCodeBench (2024年10月1日 - 2025年2月1日)	0	pass@1	33.3	27.7	32.8	43.4
推理与知识	MMLU Pro	0	macro_avg/acc	68.9	73.4	74.3	80.5
	GPQA Diamond	0	准确率	50.5	49.0	57.2	69.8
多语言	MGSM	0	average/em	91.1	91.6	90.6	92.3
长上下文	MTOB (半本书) eng->kgv/kgv->eng	-	chrF	上下文窗口为128K		42.2/36.6	54.0/46.4
	MTOB (整本书) eng->kgv/kgv->eng	-	chrF			39.7/36.3	50.8/46.7

^MMMU Pro报告的数字是标准和视觉任务的平均值

量化

Llama 4 Scout模型以BF16权重发布，但可以通过即时int4量化适应单个H100 GPU；Llama 4 Maverick模型以BF16和FP8量化权重发布。FP8量化权重可以在单个H100 DGX主机上运行，同时保持质量。我们提供了即时int4量化的代码，以最小化性能损失。

🔧 技术细节

训练因素

我们使用自定义训练库、Meta的定制GPU集群和生产基础设施进行预训练。微调、量化、标注和评估也在生产基础设施上进行。

训练能耗

模型预训练在H100 - 80GB（TDP为700W）类型的硬件上累计使用了 738万 GPU小时的计算资源，详情见下表。训练时间是每个模型训练所需的总GPU时间，功耗是每个GPU设备的峰值功率容量，并根据电源使用效率进行了调整。

模型名称	训练时间（GPU小时）	训练功耗（W）	基于位置的训练温室气体排放量（吨CO2eq）
Llama 4 Scout	500万	700	1354
Llama 4 Maverick	238万	700	645
总计	738万	-	1999

量化

📄 许可证

本模型使用自定义商业许可证，Llama 4社区许可协议，详情见：https://github.com/meta-llama/llama-models/blob/main/models/llama4/LICENSE。

Llama 4社区许可协议

点击下方“我接受”或使用或分发Llama材料的任何部分或元素，即表示您同意受本协议约束。

1. 许可权利和再分发

权利授予：您被授予非排他性、全球性、不可转让且免版税的有限许可，可在Meta拥有的知识产权或其他权利范围内，使用、复制、分发、拷贝、创作衍生作品并对Llama材料进行修改。
再分发和使用：
- 如果您分发或提供Llama材料（或其任何衍生作品），或包含其中任何内容的产品或服务（包括其他AI模型），您应（A）随任何此类Llama材料提供本协议的副本；（B）在相关网站、用户界面、博客文章、关于页面或产品文档上显著显示“Built with Llama”。如果您使用Llama材料或其任何输出或结果来创建、训练、微调或以其他方式改进AI模型，并进行分发或提供，则应在任何此类AI模型名称开头包含“Llama”。
- 如果您作为集成最终用户产品的一部分从被许可方处接收Llama材料或其任何衍生作品，则本协议第2条不适用于您。
- 您必须在分发的所有Llama材料副本中，在作为此类副本一部分分发的“Notice”文本文件中保留以下归属声明：“Llama 4 is licensed under the Llama 4 Community License, Copyright © Meta Platforms, Inc. All Rights Reserved.”
- 您使用Llama材料必须遵守适用的法律法规（包括贸易合规法律法规），并遵守Llama材料的可接受使用政策（可在 https://www.llama.com/llama4/use-policy 找到），该政策特此并入本协议。

2. 额外商业条款

如果在Llama 4版本发布日期，被许可方或其关联方提供的产品或服务的月活跃用户在前一个日历月超过7亿，则您必须向Meta申请许可，Meta可自行决定是否授予您许可。在Meta明确授予您此类权利之前，您无权行使本协议下的任何权利。

3. 保修免责声明

除非适用法律要求，Llama材料及其任何输出和结果均按“现状”提供，不提供任何形式的保证。Meta明确否认所有明示和暗示的保证，包括但不限于所有权、不侵权、适销性或特定用途适用性的保证。您独自负责确定使用或再分发Llama材料的适当性，并承担与使用Llama材料及其任何输出和结果相关的任何风险。

4. 责任限制

在任何情况下，Meta或其关联方均不对因本协议引起的任何利润损失或任何间接、特殊、后果性、偶发性、示范性或惩罚性损害承担责任，无论责任理论如何，包括合同、侵权、疏忽、产品责任或其他。即使Meta或其关联方已被告知可能发生此类损害。

5. 知识产权

商标许可：本协议未授予商标许可，与Llama材料相关，除非在描述和再分发Llama材料时合理和惯常使用所需，或如本节5(a)所述，Meta和被许可方均不得使用对方或其关联方拥有或关联的任何名称或标记。Meta特此授予您仅为遵守第1.b.i条最后一句所需而使用“Llama”（“标记”）的许可。您将遵守Meta的品牌指南（目前可在 https://about.meta.com/brand/resources/meta/company-brand/ 访问）。因您使用标记而产生的所有商誉均归Meta所有。
衍生作品所有权：在Meta拥有Llama材料及其由Meta或代表Meta制作的衍生作品的前提下，就您制作的Llama材料的任何衍生作品和修改而言，您是并将继续是此类衍生作品和修改的所有者。
侵权诉讼：如果您对Meta或任何实体（包括诉讼中的交叉索赔或反诉）提起诉讼或其他程序，声称Llama材料或Llama 4的输出或结果，或其任何部分构成侵犯您拥有或可许可的知识产权或其他权利，则本协议授予您的所有许可自提起此类诉讼或索赔之日起终止。您将赔偿并使Meta免受因您使用或分发Llama材料而产生或与之相关的任何第三方索赔。