Q

Qwen2.5 VL 72B Instruct GGUF

由 unsloth 开发
Qwen2.5-VL-72B-Instruct是Qwen家族的最新视觉语言模型,具备强大的视觉理解和视频分析能力,适用于金融、商业等多个领域。
下载量 3,285
发布时间 : 5/11/2025

模型简介

Qwen2.5-VL-72B-Instruct是一款先进的视觉语言模型,擅长视觉理解、视频分析和智能代理任务,支持多图像和视频输入,能广泛应用于多种场景。

模型特点

强大的视觉理解能力
不仅能识别常见物体,还能高度准确地分析图像中的文本、图表、图标、图形和布局。
智能代理能力
可直接作为视觉代理,能够进行推理并动态调用工具,具备计算机和手机使用能力。
长视频理解
可以理解超过1小时的视频,并能精确确定相关视频片段来捕捉事件。
视觉定位支持
通过生成边界框或点来准确定位图像中的物体,并能为坐标和属性提供稳定的JSON输出。
结构化输出
对于发票、表单、表格等扫描数据,支持对其内容进行结构化输出,有利于金融、商业等领域的应用。

模型能力

图像描述
视频分析
视觉定位
结构化数据提取
多图像推理
批量推理
长文本处理

使用案例

金融
发票处理
自动识别和提取发票中的结构化数据
高效准确的财务数据处理
商业
图表分析
自动分析商业报告中的图表数据
快速获取商业洞察
视频分析
视频内容理解
分析长视频内容并提取关键事件
高效视频内容检索
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase