U

UI TARS 2B SFT

由ByteDance-Seed開發
UI-TARS 是新一代原生圖形用戶界面(GUI)代理模型,旨在通過類人的感知、推理和行動能力,無縫地與圖形用戶界面交互。
下載量 5,553
發布時間 : 1/20/2025

模型概述

UI-TARS 是一個視覺語言模型(VLM),將所有關鍵組件——感知、推理、定位和記憶——集成在一個模型中,實現端到端的任務自動化,無需預定義工作流或手動規則。

模型特點

端到端GUI交互
集成感知、推理、定位和記憶能力,實現無縫的圖形用戶界面交互
多模態能力
結合視覺和語言理解能力,能夠處理圖像和文本輸入
高性能定位
在ScreenSpot Pro等定位任務評估中表現優異

模型能力

圖形用戶界面交互
視覺理解
文本理解
界面元素定位
多模態推理

使用案例

自動化測試
GUI自動化測試
自動識別和操作界面元素進行軟件測試
提高測試效率和覆蓋率
輔助工具
無障礙輔助
幫助視障用戶理解和操作圖形界面
提升無障礙使用體驗
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase