Qwen2.5-VL开源多模态模型 - 视觉理解和视频处理能力显著提升！

首页

Qwen2.5vl

由 NexaAI 开发

Qwen2.5-VL是基于图像文本到文本的多模态模型，在视觉理解、视频处理、结构化输出等方面有显著提升。

图像生成文本英语开源协议:Apache-2.0 #多模态视觉理解 #长视频事件捕捉 #结构化数据输出

下载量 110

发布时间 : 7/3/2025

模型简介

Qwen2.5-VL是Qwen家族的最新成员，专注于构建更实用的视觉语言模型，具备强大的视觉理解能力和智能代理功能。

模型特点

强大的视觉理解能力

擅长识别常见物体，并能高效分析图像中的文本、图表、图标、图形和布局。

智能代理功能

可直接作为视觉代理，能够进行推理并动态调用工具，支持计算机和手机的使用场景。

长视频理解与事件捕捉

可以理解超过1小时的视频，并且新增了通过定位相关视频片段来捕捉事件的能力。

多格式视觉定位

可以通过生成边界框或点来精确地定位图像中的物体，并能为坐标和属性提供稳定的JSON输出。

结构化输出支持

对于发票、表单、表格等扫描数据，支持对其内容进行结构化输出，在金融、商业等领域具有广泛应用价值。

模型能力

图像分析

视频理解

文本识别

图表解析

视觉定位

结构化数据输出

智能代理

多模态推理

使用案例

金融与商业

发票处理

自动识别和结构化输出发票信息

提高数据处理效率

表格解析

从扫描文档中提取表格数据

减少人工录入工作

教育

图表理解

解析数学和科学图表

辅助学习

视频分析

长视频理解

分析超过1小时的视频内容

事件捕捉和关键片段定位

🚀 NexaAI/qwen2.5vl

本项目提供了基于图像文本到文本的多模态模型 NexaAI/qwen2.5vl，它在视觉理解、视频处理、结构化输出等方面有显著提升，可通过 nexa-sdk 直接运行。

🚀 快速开始

在安装 nexa-sdk 后，可直接运行该模型。在 nexa-sdk 命令行界面中执行以下命令：

NexaAI/qwen2.5vl

可用的量化模型

文件名	量化类型	文件大小	分割	描述
Qwen2.5-VL-7B-Instruct-Q4_K_M.gguf	Q4_K_M	4.68 GB	false	4 位模型。视觉处理需要 `mmproj`。
mmproj-F16.gguf	f16	1.35 GB	false	视觉投影文件，必需。

✨ 主要特性

在 Qwen2-VL 发布后的五个月里，众多开发者基于该视觉语言模型构建了新模型，并提供了宝贵反馈。在此期间，团队专注于构建更实用的视觉语言模型。如今，我们很高兴地推出 Qwen 家族的最新成员：Qwen2.5-VL。

主要改进点：

强大的视觉理解能力：Qwen2.5-VL 不仅擅长识别常见的花鸟鱼虫等物体，还能高效分析图像中的文本、图表、图标、图形和布局。
智能代理功能：Qwen2.5-VL 可直接作为视觉代理，能够进行推理并动态调用工具，支持计算机和手机的使用场景。
长视频理解与事件捕捉：Qwen2.5-VL 可以理解超过 1 小时的视频，并且新增了通过定位相关视频片段来捕捉事件的能力。
多格式视觉定位：Qwen2.5-VL 可以通过生成边界框或点来精确地定位图像中的物体，并能为坐标和属性提供稳定的 JSON 输出。
结构化输出支持：对于发票、表单、表格等扫描数据，Qwen2.5-VL 支持对其内容进行结构化输出，在金融、商业等领域具有广泛应用价值。

📚 详细文档

图像基准测试结果

基准测试	InternVL2.5-8B	MiniCPM-o 2.6	GPT-4o-mini	Qwen2-VL-7B	Qwen2.5-VL-7B
MMMU_val	56	50.4	60	54.1	58.6
MMMU-Pro_val	34.3	-	37.6	30.5	41.0
DocVQA_test	93	93	-	94.5	95.7
InfoVQA_test	77.6	-	-	76.5	82.6
ChartQA_test	84.8	-	-	83.0	87.3
TextVQA_val	79.1	80.1	-	84.3	84.9
OCRBench	822	852	785	845	864
CC_OCR	57.7			61.6	77.8
MMStar	62.8			60.7	63.9
MMBench-V1.1-En_test	79.4	78.0	76.0	80.7	82.6
MMT-Bench_test	-	-	-	63.7	63.6
MMStar	61.5	57.5	54.8	60.7	63.9
MMVet_GPT-4-Turbo	54.2	60.0	66.9	62.0	67.1
HallBench_avg	45.2	48.1	46.1	50.6	52.9
MathVista_testmini	58.3	60.6	52.4	58.2	68.2
MathVision	-	-	-	16.3	25.07

视频基准测试结果

基准测试	Qwen2-VL-7B	Qwen2.5-VL-7B
MVBench	67.0	69.6
PerceptionTest_test	66.9	70.5
Video-MME_{wo/w subs}	63.3/69.0	65.1/71.6
LVBench		45.3
LongVideoBench		54.7
MMBench-Video	1.44	1.79
TempCompass		71.7
MLVU		70.2
CharadesSTA/mIoU	43.6