U

UI TARS 72B DPO

由parasail-ai開發
UI-TARS是下一代原生GUI智能體模型,具備類人的感知、推理和行動能力,可與圖形用戶界面(GUI)實現無縫交互。
下載量 179
發布時間 : 4/3/2025

模型概述

UI-TARS將感知、推理、定位和記憶等關鍵組件集成在單一的視覺語言模型(VLM)中,無需預定義工作流或手動規則,即可實現端到端的任務自動化。

模型特點

端到端GUI交互
無需預定義工作流或手動規則,實現從感知到行動的完整GUI交互流程
多模態能力
集成視覺和語言處理能力,能夠理解和操作各種GUI元素
高性能定位能力
在ScreenSpot等GUI元素定位基準測試中表現優異
離線智能體能力
在Multimodal Mind2Web等離線任務評估中達到SOTA水平

模型能力

GUI元素感知
GUI元素定位
GUI操作推理
跨平臺GUI交互
多模態理解
任務自動化

使用案例

自動化測試
跨平臺UI測試
自動執行跨移動端、桌面端和網頁端的UI測試用例
在Android Control和GUI Odyssey測試中達到88.6%的成功率
RPA自動化
業務流程自動化
自動完成涉及多個GUI應用的業務流程
在OSWorld在線評估中達到24.6%的成功率(50步任務)
輔助工具
無障礙交互
幫助視障用戶與GUI界面交互
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase