U

Uground V1 72B Preview

由osunlp開發
Qwen2-VL是Qwen-VL模型系列的最新迭代,具備全分辨率圖像理解、超長視頻解析和多語言圖文識別能力。
下載量 21
發布時間 : 1/7/2025

模型概述

720億參數的多模態視覺語言模型,支持圖像理解、視頻分析、多語言文本識別和智能體操作等功能。

模型特點

全分辨率圖像理解
通過動態視覺token映射實現類人視覺處理體驗,在MathVista、DocVQA等基準測試中達到最先進水平
超長視頻理解
可解析20分鐘以上視頻內容,支持高質量視頻問答、對話及創作
智能體操作系統
結合複雜推理與決策能力,可集成手機、機器人等設備實現視覺環境驅動的自動化操作
多語言圖文理解
支持圖像內多語種文本識別,涵蓋主要歐洲語言、日語、韓語、阿拉伯語、越南語等

模型能力

圖像理解
視頻分析
多語言文本識別
智能體操作
複雜推理
決策支持

使用案例

文檔處理
文檔問答
解析文檔圖像並回答相關問題
在DocVQA測試集上達到96.5%準確率
教育
數學問題解答
解析數學圖表並解答問題
在MathVista測試集上達到70.5%準確率
智能設備
安卓設備操作
通過視覺理解控制安卓設備
在AITZ基準測試中類型匹配準確率89.6%
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase