U

UI TARS 2B SFT

Developed by ByteDance-Seed
UI-TARS 是新一代原生圖形用戶界面(GUI)代理模型,旨在通過類人的感知、推理和行動能力,無縫地與圖形用戶界面交互。
Downloads 5,553
Release Time : 1/20/2025

Model Overview

UI-TARS 是一個視覺語言模型(VLM),將所有關鍵組件——感知、推理、定位和記憶——集成在一個模型中,實現端到端的任務自動化,無需預定義工作流或手動規則。

Model Features

端到端GUI交互
集成感知、推理、定位和記憶能力,實現無縫的圖形用戶界面交互
多模態能力
結合視覺和語言理解能力,能夠處理圖像和文本輸入
高性能定位
在ScreenSpot Pro等定位任務評估中表現優異

Model Capabilities

圖形用戶界面交互
視覺理解
文本理解
界面元素定位
多模態推理

Use Cases

自動化測試
GUI自動化測試
自動識別和操作界面元素進行軟件測試
提高測試效率和覆蓋率
輔助工具
無障礙輔助
幫助視障用戶理解和操作圖形界面
提升無障礙使用體驗
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase