Q

Qwen2.5 VL 3B UI R1 E

Developed by LZXzju
UI-R1-E-3B是基于Qwen2.5-VL-3B-Instruct微调的高效GUI定位模型,专注于视觉问答任务,特别擅长在用户界面截图中定位和识别操作元素。
Downloads 75
Release Time : 5/14/2025

Model Overview

该模型通过强化学习增强GUI代理的行为预测能力,能够准确识别用户界面中的操作元素并预测执行命令所需的操作(如点击)及其坐标位置。

Model Features

高效GUI定位
在用户界面截图中精确定位操作元素,预测点击坐标
无思考过程推理
相比带思考过程的版本,推理速度更快且准确率更高
多平台支持
在移动端(Mobile)、桌面端(Desktop)和网页(Web)界面均有优异表现

Model Capabilities

GUI元素识别
操作指令理解
坐标定位预测
跨平台界面分析

Use Cases

自动化测试
UI自动化测试
自动识别界面元素并执行测试操作
在ScreenSpotV2基准测试中平均准确率达89.5%
辅助功能
视觉障碍辅助
帮助视觉障碍用户理解界面元素位置
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase