G

GUI Actor 7B Qwen2 VL

由 microsoft 开发
GUI-Actor-7B是基于Qwen2-VL-7B-Instruct开发的视觉语言模型,专注于图形用户界面(GUI)代理任务,提供无坐标的视觉接地解决方案。
下载量 207
发布时间 : 6/1/2025

模型简介

该模型通过添加基于注意力的动作头并进行微调,能够在GUI接地任务中表现出色,适用于自动化GUI操作场景。

模型特点

无坐标视觉接地
采用创新的无坐标解决方案,直接预测GUI操作位置,简化交互流程
基于注意力机制的动作头
通过专门设计的注意力动作头增强模型对GUI元素的定位能力
多尺寸模型选择
提供从2B到7B不同参数规模的模型版本,适应不同计算资源需求
验证器增强
可选配专用验证器模型,进一步提升操作准确性

模型能力

GUI元素识别
屏幕操作定位
多模态理解(图像+文本)
自动化任务执行

使用案例

软件自动化测试
自动化UI测试
自动识别和操作软件界面元素进行功能测试
在ScreenSpot-Pro基准测试上达到40.7%准确率
RPA流程自动化
业务流程自动化
通过视觉理解自动完成重复性GUI操作任务
在ScreenSpot-v2基准测试上达到89.5%准确率
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase