U

Uground V1 72B

由osunlp開發
UGround是一款強大的GUI視覺定位模型,採用簡單配方訓練,專注於圖像文本到文本的多模態任務。
下載量 129
發布時間 : 1/11/2025

模型概述

UGround是一款由OSUNLP與Orby AI合作開發的視覺定位模型,基於Qwen2-VL架構,能夠處理圖像與文本之間的多模態交互任務。

模型特點

強大的GUI視覺定位能力
UGround能夠準確理解和定位圖形用戶界面中的元素,實現高效的圖像文本交互。
多模態支持
模型支持圖像和文本之間的多模態交互,能夠處理複雜的視覺和語言任務。
基於Qwen2-VL架構
採用先進的Qwen2-VL-72B架構,具備強大的計算能力和處理效率。

模型能力

圖像文本交互
GUI元素定位
多模態任務處理

使用案例

GUI自動化
屏幕元素定位
用於自動化測試中定位和操作屏幕上的GUI元素。
提高自動化測試的準確性和效率。
多模態交互
圖像描述生成
根據圖像內容生成詳細的文本描述。
提升圖像理解和描述的質量。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase