U

UI TARS 7B DPO

ByteDance-Seedによって開発
UI-TARSは次世代のネイティブグラフィカルユーザーインターフェース(GUI)インテリジェントエージェントモデルで、人間のような知覚、推論、行動能力でGUIとシームレスにインタラクションすることを目的としています。
ダウンロード数 38.74k
リリース時間 : 1/22/2025

モデル概要

UI-TARSは知覚、推論、ローカライゼーション、記憶といったすべての主要コンポーネントを1つの視覚言語モデル(VLM)に統合し、事前定義されたワークフローや手動ルールなしでエンドツーエンドのタスク自動化を実現します。

モデル特徴

エンドツーエンドタスク自動化
知覚、推論、ローカライゼーション、記憶機能を統合し、事前定義されたワークフローや手動ルールを必要としません。
高性能GUIインタラクション
複数のベンチマークテストで優れたパフォーマンスを発揮し、特にローカライゼーション能力評価では他のモデルを上回ります。
マルチモーダルサポート
グラフィカルユーザーインターフェースの視覚的およびテキスト的なインタラクションをサポートします。

モデル能力

グラフィカルユーザーインターフェースインタラクション
視覚知覚
テキスト推論
ローカライゼーション能力
タスク自動化

使用事例

GUI自動化
自動テスト
グラフィカルユーザーインターフェースの機能とパフォーマンスを自動テストするために使用されます。
ScreenSpot Proベンチマークで優れた結果を示しました。
ユーザーインターフェースナビゲーション
複雑なグラフィカルユーザーインターフェースのナビゲーションをユーザーに支援します。
VisualWebBenchとWebSRCベンチマークで優れた結果を示しました。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase