U

Uground V1 7B

osunlpによって開発
UGroundはシンプルなレシピでトレーニングされた強力なGUIビジュアルポジショニングモデルで、OSU NLP GroupとOrby AIの協力により完成しました。
ダウンロード数 2,053
リリース時間 : 1/3/2025

モデル概要

UGroundはQwen2-VLをベースにしたGUIビジュアルポジショニングモデルで、画面上の特定領域/要素/オブジェクトの座標を正確に特定することに特化しています。

モデル特徴

マルチモーダルビジュアルポジショニング
画面上の特定領域/要素/オブジェクトの座標(x,y)を正確に特定できます。
高性能
ScreenSpotベンチマークで優れた成績を収め、平均スコアは86.3に達しました。
エージェント統合
スマートフォン/ロボットなどのデバイスと統合し、視覚環境下での自動操作を実現できます。

モデル能力

GUIビジュアルポジショニング
マルチモーダル理解
エージェント操作

使用事例

GUIビジュアルポジショニング
ScreenSpotベンチマーク
標準設定下でGUIビジュアルポジショニングテストを実施
平均スコア86.3、複数のサブタスクで優れた性能を発揮
エージェント設定
GPT-4oプランナーと組み合わせて使用
平均スコア84.0、モバイル端末とデスクトップで顕著な性能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase