Q

Qwen2.5 VL 72B Instruct GGUF

由unsloth開發
Qwen2.5-VL-72B-Instruct是Qwen家族的最新視覺語言模型,具備強大的視覺理解和視頻分析能力,適用於金融、商業等多個領域。
下載量 3,285
發布時間 : 5/11/2025

模型概述

Qwen2.5-VL-72B-Instruct是一款先進的視覺語言模型,擅長視覺理解、視頻分析和智能代理任務,支持多圖像和視頻輸入,能廣泛應用於多種場景。

模型特點

強大的視覺理解能力
不僅能識別常見物體,還能高度準確地分析圖像中的文本、圖表、圖標、圖形和佈局。
智能代理能力
可直接作為視覺代理,能夠進行推理並動態調用工具,具備計算機和手機使用能力。
長視頻理解
可以理解超過1小時的視頻,並能精確確定相關視頻片段來捕捉事件。
視覺定位支持
通過生成邊界框或點來準確定位圖像中的物體,並能為座標和屬性提供穩定的JSON輸出。
結構化輸出
對於發票、表單、表格等掃描數據,支持對其內容進行結構化輸出,有利於金融、商業等領域的應用。

模型能力

圖像描述
視頻分析
視覺定位
結構化數據提取
多圖像推理
批量推理
長文本處理

使用案例

金融
發票處理
自動識別和提取發票中的結構化數據
高效準確的財務數據處理
商業
圖表分析
自動分析商業報告中的圖表數據
快速獲取商業洞察
視頻分析
視頻內容理解
分析長視頻內容並提取關鍵事件
高效視頻內容檢索
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase