U

Uground

osunlpによって開発
UGroundは簡潔なレシピでトレーニングされた強力なGUI視覚位置特定モデルで、オハイオ州立大学NLPグループとOrby AIの協力により完成しました。
ダウンロード数 208
リリース時間 : 8/2/2024

モデル概要

UGroundはGUI視覚位置特定に特化したマルチモーダルモデルで、テキストやアイコンなどのユーザーインターフェース内の様々な要素を正確に位置特定できます。

モデル特徴

強力なGUI視覚位置特定能力
ScreenSpotベンチマークテストで優れた性能を発揮し、平均精度73.3%を達成
マルチプラットフォーム対応
モバイル、デスクトップ、ウェブのGUI要素位置特定をサポート
簡潔なトレーニングレシピ
効率的なデータ合成とトレーニング方法を採用し、複雑なアーキテクチャを必要としない

モデル能力

GUI要素位置特定
マルチモーダル理解
クロスプラットフォームインターフェース分析
視覚-言語アラインメント

使用事例

自動テスト
インターフェース要素検出
ユーザーインターフェース内の様々な要素を自動識別・位置特定
ScreenSpotテストでモバイル端末のテキスト位置特定精度82.8%を達成
インテリジェントアシスタント
視覚ベースの命令実行
ユーザーが視覚インターフェースを通じて操作を完了するのを支援
エージェント設定下で平均精度81.4%を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase