U

Uground

由osunlp開發
UGround是通過簡潔配方訓練的強力GUI視覺定位模型,由俄亥俄州立大學NLP組與Orby AI合作完成。
下載量 208
發布時間 : 8/2/2024

模型概述

UGround是一個專注於GUI視覺定位的多模態模型,能夠精確定位用戶界面中的各種元素,如文本、圖標等。

模型特點

強大的GUI視覺定位能力
在ScreenSpot基準測試中表現出色,平均準確率達到73.3%
多平臺支持
支持移動端、桌面端和網頁端的GUI元素定位
簡潔訓練配方
採用高效的數據合成和訓練方法,無需複雜架構

模型能力

GUI元素定位
多模態理解
跨平臺界面分析
視覺-語言對齊

使用案例

自動化測試
界面元素檢測
自動識別和定位用戶界面中的各種元素
在ScreenSpot測試中達到82.8%的移動端文本定位準確率
智能助手
基於視覺的指令執行
幫助用戶通過視覺界面完成操作
在智能體設置下達到81.4%的平均準確率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase