U

UI TARS 2B SFT

bytedance-researchによって開発
UI-TARSは次世代のネイティブグラフィカルユーザーインターフェース(GUI)エージェントモデルで、人間のような知覚、推論、行動能力を通じてGUIとシームレスにインタラクションすることを目的としています。
ダウンロード数 5,792
リリース時間 : 1/20/2025

モデル概要

UI-TARSは、知覚、推論、位置特定、記憶といったすべての主要コンポーネントを単一の視覚言語モデル(VLM)に統合し、事前定義されたワークフローや手動ルールなしでエンドツーエンドのタスク自動化を実現します。

モデル特徴

エンドツーエンドタスク自動化
知覚、推論、位置特定、記憶を単一モデルに統合し、事前定義されたワークフローや手動ルールを必要としません。
ネイティブGUIインタラクション
人間のような知覚、推論、行動能力を通じてグラフィカルユーザーインターフェースとシームレスにインタラクションします。
マルチモーダル能力
視覚と言語の理解能力を組み合わせ、複雑なGUIタスクを処理します。

モデル能力

グラフィカルユーザーインターフェースのインタラクション
視覚言語理解
エンドツーエンドタスク自動化
マルチモーダル推論

使用事例

自動テスト
GUI自動テスト
GUIインターフェースのテストタスクを自動的に実行し、人的介入を必要としません。
テスト効率とカバレッジの向上
インテリジェントアシスタント
GUI操作アシスタント
ユーザーが複雑なGUI操作タスクを完了するのを支援します。
ユーザー操作効率の向上
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase