Q

Qwen2.5 VL Instruct 3B Geo

由kxxinDave開發
Qwen2.5-VL是Qwen家族的最新視覺語言模型,專注於增強視覺理解和代理能力。
下載量 29
發布時間 : 3/21/2025

模型概述

Qwen2.5-VL是一個多功能視覺語言模型,擅長視覺理解、文本分析、圖表解析和視覺定位,支持結構化輸出和長視頻理解。

模型特點

增強視覺理解
能高效分析圖像中的文本、圖表、圖標、圖形和佈局
代理能力
可直接作為視覺代理進行推理並動態調用工具
長視頻理解
能理解超過1小時的視頻並精確定位相關片段
視覺定位
支持通過邊界框或點精確定位圖像中的對象
結構化輸出
支持發票、表格等數據掃描件的結構化輸出

模型能力

圖像分析
文本識別
圖表理解
視覺定位
視頻理解
結構化數據提取
工具調用

使用案例

商業應用
發票處理
自動提取發票中的結構化數據
提高財務處理效率
表格解析
從掃描文檔中提取表格數據
簡化數據錄入流程
教育
圖表理解
解釋科學圖表和數學圖形
輔助學習理解
多媒體分析
視頻內容分析
理解長視頻內容並定位關鍵事件
提高視頻檢索效率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase