Q

Qwen2.5 VL 3B Instruct 4bit

由jarvisvasu開發
Qwen2.5-VL是Qwen家族的最新視覺語言模型,具備增強的視覺理解、智能體功能和長視頻處理能力。
下載量 174
發布時間 : 1/29/2025

模型概述

Qwen2.5-VL是一個多模態視覺語言模型,專注於提升視覺理解、智能體功能和長視頻處理能力,適用於多種視覺語言任務。

模型特點

增強的視覺理解能力
能精準識別常見物體,擅長分析圖像中的文本、圖表、圖標、圖形和版式佈局。
智能體功能
可直接作為視覺智能體進行推理和動態工具調用,支持計算機和手機操作場景。
長視頻理解與事件捕捉
可解析超過1小時的視頻內容,新增精準定位相關視頻片段的事件捕捉能力。
多格式視覺定位
通過生成邊界框或座標點精確定位圖像中的物體,並能穩定輸出JSON格式的座標和屬性數據。
結構化輸出生成
針對發票掃描件、表格等數據,支持內容結構化輸出,適用於金融、商業等領域。

模型能力

圖像理解
文本分析
視頻理解
視覺定位
結構化數據生成
智能體推理

使用案例

文檔處理
發票掃描件處理
自動提取發票中的關鍵信息並生成結構化數據
高效處理金融和商業文檔
視頻分析
長視頻內容理解
解析超過1小時的視頻內容,定位關鍵事件
提升視頻內容分析效率
智能體應用
計算機操作輔助
作為視覺智能體輔助用戶進行計算機操作
提升人機交互體驗
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase