U

Uground V1 7B

由osunlp開發
UGround是一款採用簡單配方訓練的強大GUI視覺定位模型,由OSU NLP Group與Orby AI合作完成。
下載量 2,053
發布時間 : 1/3/2025

模型概述

UGround是一款基於Qwen2-VL的GUI視覺定位模型,專注於精確定位屏幕上特定區域/元素/對象的座標。

模型特點

多模態視覺定位
能夠精確定位屏幕上特定區域/元素/對象的座標(x,y)。
高性能
在ScreenSpot基準測試中表現優異,平均分達到86.3。
智能體集成
可集成手機/機器人等設備實現視覺環境下的自動操作。

模型能力

GUI視覺定位
多模態理解
智能體操作

使用案例

GUI視覺定位
ScreenSpot基準測試
在標準設置下進行GUI視覺定位測試
平均分86.3,在多個子任務中表現優異
智能體設置
與GPT-4o規劃器結合使用
平均分84.0,在移動端和桌面端表現突出
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase