S

Space Model

由Alhdrawi開發
Qwen2.5-VL-32B-Instruct是Qwen家族的最新視覺語言模型,具備強大的視覺理解和智能代理能力,支持多模態任務處理。
下載量 58
發布時間 : 3/31/2025

模型概述

Qwen2.5-VL-32B-Instruct是一個320億參數的視覺語言模型,專注於提升視覺理解、數學推理和問題解決能力,支持圖像、視頻和文本的多模態交互。

模型特點

增強的視覺理解能力
不僅能識別常見物體,還擅長分析圖像中的文本、圖表、圖標、圖形和佈局。
智能代理能力
可直接作為視覺代理,動態調用工具,支持計算機和手機操作。
長視頻理解與事件捕捉
能解析超過1小時的視頻,新增精準定位相關片段的能力。
多格式視覺定位
通過生成邊界框或點座標精確定位圖像對象,並輸出穩定的JSON格式座標和屬性。
結構化輸出
支持發票、表格等掃描數據的結構化輸出,適用於金融、商業等場景。

模型能力

圖像分析
視頻理解
文本生成
數學推理
邏輯推理
知識問答
視覺定位
智能代理

使用案例

金融與商業
發票處理
自動識別和結構化輸出發票信息
準確率高達96.4%(DocVQA數據集)
教育
數學問題解答
解析和解答包含圖表和公式的數學問題
MathVista數據集得分74.7
視頻分析
長視頻內容理解
解析超過1小時的視頻內容並定位關鍵事件
LVBench得分49.00
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase