U

UI TARS 72B DPO

parasail-aiによって開発
UI-TARSは次世代のネイティブGUIインテリジェントエージェントモデルで、人間に似た感知、推論、行動能力を備え、グラフィカルユーザーインターフェイス(GUI)とシームレスにインタラクションできます。
ダウンロード数 179
リリース時間 : 4/3/2025

モデル概要

UI-TARSは感知、推論、定位、記憶などの重要なコンポーネントを単一のビジュアル言語モデル(VLM)に統合し、事前定義されたワークフローや手動ルールを必要とせずに、エンドツーエンドのタスク自動化を実現します。

モデル特徴

エンドツーエンドのGUIインタラクション
事前定義されたワークフローや手動ルールを必要とせずに、感知から行動までの完全なGUIインタラクションプロセスを実現します。
マルチモーダル能力
視覚と言語処理能力を統合し、さまざまなGUI要素を理解し操作できます。
高性能定位能力
ScreenSpotなどのGUI要素定位ベンチマークテストで優れた成績を収めています。
オフラインインテリジェントエージェント能力
Multimodal Mind2Webなどのオフラインタスク評価でSOTAレベルに達しています。

モデル能力

GUI要素感知
GUI要素定位
GUI操作推論
クロスプラットフォームGUIインタラクション
マルチモーダル理解
タスク自動化

使用事例

自動化テスト
クロスプラットフォームUIテスト
モバイル端、デスクトップ端、ウェブ端のUIテストケースを自動実行します。
Android ControlとGUI Odysseyテストで88.6%の成功率を達成しました。
RPA自動化
業務プロセス自動化
複数のGUIアプリケーションを含む業務プロセスを自動的に完了します。
OSWorldオンライン評価で24.6%の成功率(50ステップタスク)を達成しました。
支援ツール
バリアフリーインタラクション
視覚障害者がGUIインターフェイスとインタラクションするのを支援します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase