Q

Qwen2.5 VL 7B Instruct GGUF

由unsloth開發
Qwen2.5-VL是Qwen家族最新推出的視覺語言模型,具備強大的視覺理解和多模態處理能力,支持圖像、視頻分析和結構化輸出。
下載量 8,427
發布時間 : 5/11/2025

模型概述

Qwen2.5-VL是一款多模態視覺語言模型,專注於提升視覺理解、智能體功能和結構化輸出能力,適用於金融、商業等多種場景。

模型特點

增強視覺理解
精準識別物體、文本、圖表、圖標和版式佈局,支持複雜視覺內容分析
智能體功能
可直接作為視覺智能體運行,動態調用工具,支持計算機和手機操作場景
長視頻理解
可解析超過1小時的視頻內容,具備精準定位相關片段的事件捕捉能力
結構化輸出
針對發票、表格等數據支持結構化輸出,適用於金融、商業等專業場景

模型能力

圖像分析
視頻理解
文本識別
圖表解析
視覺定位
結構化數據提取
多模態推理

使用案例

商業分析
發票處理
自動提取發票中的結構化數據
準確率高達95.7%(DocVQA測試集)
教育
圖表理解
解析教學材料中的圖表信息
ChartQA測試集準確率87.3%
智能助手
視覺智能體
作為智能體執行屏幕操作任務
ScreenSpot測試集得分84.7
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase