Q

Qwen2.5 VL 3B UI R1 E

由LZXzju開發
UI-R1-E-3B是基於Qwen2.5-VL-3B-Instruct微調的高效GUI定位模型,專注於視覺問答任務,特別擅長在用戶界面截圖中定位和識別操作元素。
下載量 75
發布時間 : 5/14/2025

模型概述

該模型通過強化學習增強GUI代理的行為預測能力,能夠準確識別用戶界面中的操作元素並預測執行命令所需的操作(如點擊)及其座標位置。

模型特點

高效GUI定位
在用戶界面截圖中精確定位操作元素,預測點擊座標
無思考過程推理
相比帶思考過程的版本,推理速度更快且準確率更高
多平臺支持
在移動端(Mobile)、桌面端(Desktop)和網頁(Web)界面均有優異表現

模型能力

GUI元素識別
操作指令理解
座標定位預測
跨平臺界面分析

使用案例

自動化測試
UI自動化測試
自動識別界面元素並執行測試操作
在ScreenSpotV2基準測試中平均準確率達89.5%
輔助功能
視覺障礙輔助
幫助視覺障礙用戶理解界面元素位置
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase