Qwen2.5-VL-instruct-3B-Geo开源视觉语言模型 - 免费使用增强视觉理解与代理能力

首页

Qwen2.5 VL Instruct 3B Geo

由 kxxinDave 开发

Qwen2.5-VL是Qwen家族的最新视觉语言模型，专注于增强视觉理解和代理能力。

文本生成图像

Transformers

英语开源协议:Apache-2.0 #多模态视觉理解 #视频事件定位 #结构化数据提取

下载量 29

发布时间 : 3/21/2025

模型简介

Qwen2.5-VL是一个多功能视觉语言模型，擅长视觉理解、文本分析、图表解析和视觉定位，支持结构化输出和长视频理解。

模型特点

增强视觉理解

能高效分析图像中的文本、图表、图标、图形和布局

代理能力

可直接作为视觉代理进行推理并动态调用工具

长视频理解

能理解超过1小时的视频并精确定位相关片段

视觉定位

支持通过边界框或点精确定位图像中的对象

结构化输出

支持发票、表格等数据扫描件的结构化输出

模型能力

图像分析

文本识别

图表理解

视觉定位

视频理解

结构化数据提取

工具调用

使用案例

商业应用

发票处理

自动提取发票中的结构化数据

提高财务处理效率

表格解析

从扫描文档中提取表格数据

简化数据录入流程

教育

图表理解

解释科学图表和数学图形

辅助学习理解

多媒体分析

视频内容分析

理解长视频内容并定位关键事件

提高视频检索效率

🚀 Qwen2.5-VL-3B-Instruct-Geo

Qwen2.5-VL-3B-Instruct-Geo是Qwen家族的最新成员，是一款功能强大的视觉语言模型。它在视觉理解、动态决策、视频处理、视觉定位和结构化输出等方面表现出色，为金融、商业等领域的应用提供了有力支持。

🚀 快速开始

Qwen2.5-VL的代码已集成在最新的Hugging face transformers中，建议使用以下命令从源代码进行构建：

pip install git+https://github.com/huggingface/transformers accelerate

否则可能会遇到以下错误：

KeyError: 'qwen2_5_vl'

同时，我们提供了一个工具包，方便你更便捷地处理各种类型的视觉输入，就像使用API一样。该工具包支持base64、URL以及交错的图像和视频。你可以使用以下命令进行安装：

# 强烈建议使用 `[decord]` 特性以实现更快的视频加载。
pip install qwen-vl-utils[decord]==0.0.8

如果你不使用Linux系统，可能无法从PyPI安装decord。在这种情况下，你可以使用pip install qwen-vl-utils，它将回退到使用torchvision进行视频处理。不过，你仍然可以从源代码安装decord，以便在加载视频时使用decord。

使用🤗 Transformers进行对话

这是一个经过监督微调的模型，你可以按照以下方式使用：

from transformers import AutoTokenizer, AutoProcessor, AutoModelForImageTextToText
from qwen_vl_utils import process_vision_info
from peft import PeftModel

# 默认：将模型加载到可用设备上
model = AutoModelForImageTextToText.from_pretrained(
        "kxxinDave/Qwen2.5-VL-instruct-3B-Geo",
        device_map='auto',
        torch_dtype=torch.bfloat16
)
processor = AutoProcessor.from_pretrained("kxxinDave/Qwen2.5-VL-instruct-3B-Geo")

# Qwen建议启用flash_attention_2以获得更好的加速和内存节省效果，特别是在多图像和视频场景中。
# model = AutoModelForImageTextToText.from_pretrained(
#     "kxxinDave/Qwen2.5-VL-instruct-3B-Geo",
#     torch_dtype=torch.bfloat16,
#     attn_implementation="flash_attention_2",
#     device_map="auto",
# )


# 模型中每张图像的视觉令牌数量的默认范围是4 - 16384。
# 你可以根据需要设置min_pixels和max_pixels，例如令牌范围为256 - 1280，以平衡性能和成本。
# min_pixels = 256*28*28
# max_pixels = 1280*28*28
# processor = AutoProcessor.from_pretrained("kxxinDave/Qwen2.5-VL-instruct-3B-Geo", min_pixels=min_pixels, max_pixels=max_pixels)

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg",
            },
            {"type": "text", "text": "Describe this image."},
        ],
    }
]

# 推理准备
text = processor.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
    text=[text],
    images=image_inputs,
    videos=video_inputs,
    padding=True,
    return_tensors="pt",
)
inputs = inputs.to("cuda")

# 推理：生成输出
generated_ids = model.generate(**inputs, max_new_tokens=128)
generated_ids_trimmed = [
    out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)

✨ 主要特性

关键增强功能

视觉理解能力：Qwen2.5-VL不仅擅长识别常见物体，如花鸟鱼虫，还能对图像中的文本、图表、图标、图形和布局进行深入分析。
自主决策能力：Qwen2.5-VL可直接作为视觉代理，进行推理并动态调用工具，具备计算机和手机使用能力。
长视频理解与事件捕捉：Qwen2.5-VL能够理解超过1小时的视频，并具备通过定位相关视频片段来捕捉事件的新能力。
多格式视觉定位：Qwen2.5-VL可以通过生成边界框或点来准确地定位图像中的物体，并为坐标和属性提供稳定的JSON输出。
结构化输出生成：对于发票、表单、表格等扫描数据，Qwen2.5-VL支持生成其内容的结构化输出，有助于金融、商业等领域的应用。

模型架构更新

用于视频理解的动态分辨率和帧率训练：通过采用动态FPS采样，将动态分辨率扩展到时间维度，使模型能够理解不同采样率的视频。相应地，在时间维度上使用ID和绝对时间对齐更新mRoPE，使模型能够学习时间序列和速度，最终获得定位特定时刻的能力。
精简高效的视觉编码器：通过在ViT中策略性地实现窗口注意力，提高了训练和推理速度。同时，使用SwiGLU和RMSNorm进一步优化ViT架构，使其与Qwen2.5 LLM的结构保持一致。

我们有三个分别具有30亿、70亿和720亿参数的模型。本仓库包含经过指令微调的30亿参数的Qwen2.5-VL模型。更多信息，请访问我们的博客和GitHub。

📄 许可证

本项目采用Apache 2.0许可证。

📚 引用

如果您觉得我们的工作有帮助，请引用我们的成果：

@misc{qwen2.5-VL,
    title = {Qwen2.5-VL},
    url = {https://qwenlm.github.io/blog/qwen2.5-vl/},
    author = {Qwen Team},
    month = {January},
    year = {2025}
}

@article{Qwen2VL,
  title={Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution},
  author={Wang, Peng and Bai, Shuai and Tan, Sinan and Wang, Shijie and Fan, Zhihao and Bai, Jinze and Chen, Keqin and Liu, Xuejing and Wang, Jialin and Ge, Wenbin and Fan, Yang and Dang, Kai and Du, Mengfei and Ren, Xuancheng and Men, Rui and Liu, Dayiheng and Zhou, Chang and Zhou, Jingren and Lin, Junyang},
  journal={arXiv preprint arXiv:2409.12191},
  year={2024}
}

@article{Qwen-VL,
  title={Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond},
  author={Bai, Jinze and Bai, Shuai and Yang, Shusheng and Wang, Shijie and Tan, Sinan and Wang, Peng and Lin, Junyang and Zhou, Chang and Zhou, Jingren},
  journal={arXiv preprint arXiv:2308.12966},
  year={2023}
}