开源Eagle2-1B视觉语言模型 - 助力数据透明化开发高性能模型

首页

Eagle2 1B

由 nvidia 开发

鹰隼2号是一个高性能视觉语言模型家族，专注于数据策略和训练方案的透明性，旨在推动开源社区开发具有竞争力的视觉语言模型。

图像生成文本

Transformers

其他#多模态视觉语言 #高效小参数 #文档图像理解

下载量 1,791

发布时间 : 1/10/2025

模型简介

鹰隼2号-1B是一个紧凑高效的视觉语言模型，专为需要快速推理和最小计算资源的场景设计，同时保持核心性能。

模型特点

高效性能

在紧凑的1B参数规模下，仍能保持与更大模型竞争的性能。

多语言支持

支持多种语言的视觉语言理解任务。

长上下文处理

支持长达16K的上下文长度，适合处理复杂任务。

透明数据策略

强调数据策略的透明性，便于复现和创新。

模型能力

视觉语言理解

图像文本生成

多模态推理

文档理解

图表分析

使用案例

文档处理

DocVQA

文档视觉问答

测试集准确率81.8

图表分析

ChartQA

图表问答

测试集准确率77.0

视觉问答

TextVQA

文本视觉问答

验证集准确率76.6

🚀 Eagle-2

我们很高兴地宣布推出最新的Eagle2系列视觉语言模型（VLM）。该模型聚焦于从以数据为中心的视角进行VLM的后训练，分享了如何从头构建有效数据策略的见解。结合强大的训练方法和模型设计，我们推出了性能出色的Eagle2系列模型，旨在助力开源社区以透明的流程开发具有竞争力的VLM。

[📂 GitHub] [📜 Eagle2 Tech Report] [🤗 HF Demo]

🆕 最新消息

我们将模型架构更新为 eagle_2_5_vl，以支持 generate 功能。

✨ 主要特性

多语言支持：支持多种语言，具有广泛的适用性。
多种输入类型：支持纯文本输入、单图像输入、多图像输入、视频输入。
模型架构更新：更新为 eagle_2_5_vl 架构，支持 generate 功能。

📦 安装指南

安装依赖项

pip install transformers
pip install flash-attn

💻 使用示例

基础用法

单图像输入

from PIL import Image
import requests
from transformers import AutoProcessor, AutoModel
import torch
model = AutoModel.from_pretrained("nvidia/Eagle2-1B",trust_remote_code=True, torch_dtype=torch.bfloat16)
processor = AutoProcessor.from_pretrained("nvidia/Eagle2-1B", trust_remote_code=True, use_fast=True)
processor.tokenizer.padding_side = "left"

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "image": "https://www.ilankelman.org/stopsigns/australia.jpg",
            },
            {"type": "text", "text": "Describe this image."},
        ],
    }
]

text_list = [processor.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)]
image_inputs, video_inputs = processor.process_vision_info(messages)
inputs = processor(text = text_list, images=image_inputs, videos=video_inputs, return_tensors="pt", padding=True)
inputs = inputs.to("cuda")
model = model.to("cuda")
generated_ids = model.generate(**inputs, max_new_tokens=1024)
output_text = processor.batch_decode(
    generated_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)

高级用法

流式生成

from PIL import Image
import requests
from transformers import AutoProcessor, AutoModel, AutoTokenizer
import torch

from transformers import TextIteratorStreamer
import threading


model = AutoModel.from_pretrained("nvidia/Eagle2-1B",trust_remote_code=True, attn_implementation='flash_attention_2', torch_dtype=torch.bfloat16)
tokenizer = AutoTokenizer.from_pretrained("nvidia/Eagle2-1B", trust_remote_code=True, use_fast=True)
processor = AutoProcessor.from_pretrained("nvidia/Eagle2-1B", trust_remote_code=True, use_fast=True)
processor.tokenizer.padding_side = "left"

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "image": "https://www.ilankelman.org/stopsigns/australia.jpg",
            },
            {"type": "text", "text": "Describe this image."},
        ],
    }
]

text_list = [processor.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)]
image_inputs, video_inputs = processor.process_vision_info(messages)
inputs = processor(text = text_list, images=image_inputs, videos=video_inputs, return_tensors="pt", padding=True)
inputs = inputs.to("cuda")
model = model.to("cuda")

streamer = TextIteratorStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)

generation_kwargs = dict(
    **inputs,
    streamer=streamer,
    max_new_tokens=1024,
    do_sample=True,
    top_p=0.95,
    temperature=0.8
)
thread = threading.Thread(target=model.generate, kwargs=generation_kwargs)
thread.start()


for new_text in streamer:
    print(new_text, end="", flush=True)

多图像输入

from PIL import Image
import requests
from transformers import AutoProcessor, AutoModel
import torch
model = AutoModel.from_pretrained("nvidia/Eagle2-1B",trust_remote_code=True, torch_dtype=torch.bfloat16)
processor = AutoProcessor.from_pretrained("nvidia/Eagle2-1B", trust_remote_code=True, use_fast=True)
processor.tokenizer.padding_side = "left"

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "image": "https://www.ilankelman.org/stopsigns/australia.jpg",
            },
            {
                "type": "image",
                "image": "https://www.nvidia.com/content/dam/en-zz/Solutions/about-nvidia/logo-and-brand/01-nvidia-logo-vert-500x200-2c50-d@2x.png",
            },
            {"type": "text", "text": "Describe these two images."},
        ],
    }
]

text_list = [processor.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)]
image_inputs, video_inputs = processor.process_vision_info(messages)
inputs = processor(text = text_list, images=image_inputs, videos=video_inputs, return_tensors="pt", padding=True)
inputs = inputs.to("cuda")
model = model.to("cuda")
generated_ids = model.generate(**inputs, max_new_tokens=1024)
output_text = processor.batch_decode(
    generated_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)

单视频输入

from PIL import Image
import requests
from transformers import AutoProcessor, AutoModel
import torch
model = AutoModel.from_pretrained("nvidia/Eagle2-1B",trust_remote_code=True, torch_dtype=torch.bfloat16)
processor = AutoProcessor.from_pretrained("nvidia/Eagle2-1B", trust_remote_code=True, use_fast=True)
processor.tokenizer.padding_side = "left"

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "video",
                "video": "../Eagle2-8B/space_woaudio.mp4",
            },
            {"type": "text", "text": "Describe this video."},
        ],
    }
]

text_list = [processor.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)]
image_inputs, video_inputs, video_kwargs = processor.process_vision_info(messages, return_video_kwargs=True)

inputs = processor(text = text_list, images=image_inputs, videos=video_inputs, return_tensors="pt", padding=True, videos_kwargs=video_kwargs)
inputs = inputs.to("cuda")
model = model.to("cuda")
generated_ids = model.generate(**inputs, max_new_tokens=1024)
output_text = processor.batch_decode(
    generated_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)

多视频输入

from PIL import Image
import requests
from transformers import AutoProcessor, AutoModel
import torch
model = AutoModel.from_pretrained("nvidia/Eagle2-1B",trust_remote_code=True, torch_dtype=torch.bfloat16)
processor = AutoProcessor.from_pretrained("nvidia/Eagle2-1B", trust_remote_code=True, use_fast=True)
processor.tokenizer.padding_side = "left"

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "video",
                "video": "../Eagle2-8B/space_woaudio.mp4",
                "nframes": 10,
            },
            {
                "type": "video",
                "video": "../Eagle2-8B/video_ocr.mp4",
                "nframes": 10,
            },
            {"type": "text", "text": "Describe these two videos respectively."},
        ],
    }
]

text_list = [processor.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)]
image_inputs, video_inputs, video_kwargs = processor.process_vision_info(messages, return_video_kwargs=True)
inputs = processor(text = text_list, images=image_inputs, videos=video_inputs, return_tensors="pt", padding=True, videos_kwargs=video_kwargs)
inputs = inputs.to("cuda")
model = model.to("cuda")
generated_ids = model.generate(**inputs, max_new_tokens=1024)
output_text = processor.batch_decode(
    generated_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)

批量推理

from PIL import Image
import requests
from transformers import AutoProcessor, AutoModel
import torch
model = AutoModel.from_pretrained("nvidia/Eagle2-1B",trust_remote_code=True, torch_dtype=torch.bfloat16)
processor = AutoProcessor.from_pretrained("nvidia/Eagle2-1B", trust_remote_code=True, use_fast=True)
processor.tokenizer.padding_side = "left"

messages1 = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "image": "https://www.ilankelman.org/stopsigns/australia.jpg",
            },
            {"type": "text", "text": "Describe this image."},
        ],
    }
]

messages2 = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "image": "https://www.nvidia.com/content/dam/en-zz/Solutions/about-nvidia/logo-and-brand/01-nvidia-logo-vert-500x200-2c50-d@2x.png",
            },
            {"type": "text", "text": "Describe this image."},
        ],
    }
]

text_list = [processor.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
) for messages in [messages1, messages2]]
image_inputs, video_inputs = processor.process_vision_info([messages1, messages2])
inputs = processor(text = text_list, images=image_inputs, videos=video_inputs, return_tensors="pt", padding=True)
inputs = inputs.to("cuda")
model = model.to("cuda")
generated_ids = model.generate(**inputs, max_new_tokens=1024)
output_text = processor.batch_decode(
    generated_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)

📚 详细文档

模型库

我们提供以下模型：

模型名称	大语言模型（LLM）	视觉模型	最大长度	Hugging Face链接
Eagle2-1B	Qwen2.5-0.5B-Instruct	Siglip	16K	🤗 链接
Eagle2-2B	Qwen2.5-1.5B-Instruct	Siglip	16K	🤗 链接
Eagle2-9B	Qwen2.5-7B-Instruct	Siglip+ConvNext	16K	🤗 链接

基准测试结果

基准测试	LLaVa-One-Vision-0.5B	InternVL2-1B	InternVL2.5-1B	Qwen2-VL-2B	Eagle2-1B
DocVQA_test	70.0	81.7	84.8	90.1	81.8
ChartQA_test	61.4	72.9	75.9	73.0	77.0
InfoVQA_test	41.8	50.9	56.0	65.5	54.8
TextVQA_val	-	70.0	72.0	79.7	76.6
OCRBench	565	754	785	809	767
MME_sum	1438.0	1794.4	1950.5	1872.0	1790.2
RealWorldQA	55.6	50.3	57.5	62.6	55.4
AI2D_test	57.1	64.1	69.3	74.7	70.9
MMMU_val	31.4	36.7	40.9	41.1	38.8
MMVet_{GPT - 4 - Turbo}	32.2	32.7	48.8	49.5	40.9
HallBench_avg	27.9	34.0	39.0	41.7	35.3
MathVista_testmini	33.8	37.7	43.2	43.0	45.3
MMstar	37.7	45.7	50.1	48.0	48.5

📋 待办事项

[ ] 支持vLLM推理
[ ] 提供AWQ量化权重
[ ] 提供微调脚本

📄 许可证

代码根据 LICENSE 文件中的Apache 2.0许可证发布。
预训练模型权重根据 Creative Commons Attribution: Non - Commercial 4.0 International 许可证发布。
该服务仅用于非商业研究预览，并受以下许可证和条款约束：
- Qwen2.5-0.5B-Instruct的模型许可证：Apache - 2.0
- PaliGemma的模型许可证：Gemma license