Qwen2.5vl
Qwen2.5-VL是基于图像文本到文本的多模态模型,在视觉理解、视频处理、结构化输出等方面有显著提升。
下载量 110
发布时间 : 7/3/2025
模型简介
Qwen2.5-VL是Qwen家族的最新成员,专注于构建更实用的视觉语言模型,具备强大的视觉理解能力和智能代理功能。
模型特点
强大的视觉理解能力
擅长识别常见物体,并能高效分析图像中的文本、图表、图标、图形和布局。
智能代理功能
可直接作为视觉代理,能够进行推理并动态调用工具,支持计算机和手机的使用场景。
长视频理解与事件捕捉
可以理解超过1小时的视频,并且新增了通过定位相关视频片段来捕捉事件的能力。
多格式视觉定位
可以通过生成边界框或点来精确地定位图像中的物体,并能为坐标和属性提供稳定的JSON输出。
结构化输出支持
对于发票、表单、表格等扫描数据,支持对其内容进行结构化输出,在金融、商业等领域具有广泛应用价值。
模型能力
图像分析
视频理解
文本识别
图表解析
视觉定位
结构化数据输出
智能代理
多模态推理
使用案例
金融与商业
发票处理
自动识别和结构化输出发票信息
提高数据处理效率
表格解析
从扫描文档中提取表格数据
减少人工录入工作
教育
图表理解
解析数学和科学图表
辅助学习
视频分析
长视频理解
分析超过1小时的视频内容
事件捕捉和关键片段定位
精选推荐AI模型
Qwen2.5 VL 7B Abliterated Caption It I1 GGUF
Apache-2.0
Qwen2.5-VL-7B-Abliterated-Caption-it的量化版本,支持多语言图像描述任务。
图像生成文本
Transformers 支持多种语言

Q
mradermacher
167
1
Nunchaku Flux.1 Dev Colossus
其他
Colossus Project Flux 的 Nunchaku 量化版本,旨在根据文本提示生成高质量图像。该模型在优化推理效率的同时,将性能损失降至最低。
图像生成 英语
N
nunchaku-tech
235
3
Qwen2.5 VL 7B Abliterated Caption It GGUF
Apache-2.0
这是一个基于Qwen2.5-VL-7B模型的静态量化版本,专注于图像描述生成任务,支持多种语言。
图像生成文本
Transformers 支持多种语言

Q
mradermacher
133
1
Olmocr 7B 0725 FP8
Apache-2.0
olmOCR-7B-0725-FP8是基于Qwen2.5-VL-7B-Instruct模型,使用olmOCR-mix-0225数据集微调后量化为FP8版本的文档OCR模型。
图像生成文本
Transformers 英语

O
allenai
881
3
Lucy 128k GGUF
Apache-2.0
Lucy-128k是基于Qwen3-1.7B开发的专注于代理式网络搜索和轻量级浏览的模型,在移动设备上也能高效运行。
大型语言模型
Transformers 英语

L
Mungert
263
2