U

Uground V1 2B

由osunlp開發
UGround是一個強大的GUI視覺定位模型,採用簡單的方法進行訓練,由OSUNLP和Orby AI合作完成。
下載量 975
發布時間 : 1/3/2025

模型概述

UGround是一個專注於GUI視覺定位的模型,能夠精確定位屏幕上的特定元素或對象,適用於各種GUI交互場景。

模型特點

強大的GUI視覺定位能力
能夠精確定位屏幕上的特定元素或對象,準確識別GUI中的各種組件。
簡單的訓練方法
採用簡潔有效的訓練策略,實現了高性能的視覺定位能力。
多尺寸圖像處理
支持處理各種分辨率和比例的圖像,適應不同的GUI界面。
多語言支持
除了英語和中文,還支持理解圖像中多種語言的文本內容。

模型能力

GUI元素定位
視覺問答
多模態理解
跨語言文本識別
複雜推理和決策

使用案例

自動化測試
GUI元素自動識別
自動識別和定位應用程序界面中的按鈕、文本框等元素
提高自動化測試的準確性和效率
輔助技術
視覺輔助工具
幫助視障用戶理解和操作GUI界面
提升無障礙訪問體驗
機器人控制
基於視覺的機器人操作
通過GUI界面控制機器人執行任務
實現更自然的機器人交互方式
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase