U

UI TARS 7B DPO

Developed by ByteDance-Seed
UI-TARSは次世代のネイティブグラフィカルユーザーインターフェース(GUI)インテリジェントエージェントモデルで、人間のような知覚、推論、行動能力でGUIとシームレスにインタラクションすることを目的としています。
Downloads 38.74k
Release Time : 1/22/2025

Model Overview

UI-TARSは知覚、推論、ローカライゼーション、記憶といったすべての主要コンポーネントを1つの視覚言語モデル(VLM)に統合し、事前定義されたワークフローや手動ルールなしでエンドツーエンドのタスク自動化を実現します。

Model Features

エンドツーエンドタスク自動化
知覚、推論、ローカライゼーション、記憶機能を統合し、事前定義されたワークフローや手動ルールを必要としません。
高性能GUIインタラクション
複数のベンチマークテストで優れたパフォーマンスを発揮し、特にローカライゼーション能力評価では他のモデルを上回ります。
マルチモーダルサポート
グラフィカルユーザーインターフェースの視覚的およびテキスト的なインタラクションをサポートします。

Model Capabilities

グラフィカルユーザーインターフェースインタラクション
視覚知覚
テキスト推論
ローカライゼーション能力
タスク自動化

Use Cases

GUI自動化
自動テスト
グラフィカルユーザーインターフェースの機能とパフォーマンスを自動テストするために使用されます。
ScreenSpot Proベンチマークで優れた結果を示しました。
ユーザーインターフェースナビゲーション
複雑なグラフィカルユーザーインターフェースのナビゲーションをユーザーに支援します。
VisualWebBenchとWebSRCベンチマークで優れた結果を示しました。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase