U

UI TARS 7B DPO

由ByteDance-Seed開發
UI-TARS 是新一代原生圖形用戶界面(GUI)智能體模型,旨在通過類人的感知、推理和行動能力與圖形用戶界面無縫交互。
下載量 38.74k
發布時間 : 1/22/2025

模型概述

UI-TARS 將所有關鍵組件——感知、推理、定位和記憶——集成在一個視覺語言模型(VLM)中,實現端到端的任務自動化,無需預定義工作流或手動規則。

模型特點

端到端任務自動化
集成感知、推理、定位和記憶功能,無需預定義工作流或手動規則。
高性能GUI交互
在多個基準測試中表現出色,特別是在定位能力評估中優於其他模型。
多模態支持
支持圖形用戶界面的視覺和文本交互。

模型能力

圖形用戶界面交互
視覺感知
文本推理
定位能力
任務自動化

使用案例

GUI自動化
自動化測試
用於自動化測試圖形用戶界面的功能和性能。
在ScreenSpot Pro基準測試中表現優異。
用戶界面導航
幫助用戶導航複雜的圖形用戶界面。
在VisualWebBench和WebSRC基準測試中表現優異。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase