G

GUI Actor 7B Qwen2 VL

由microsoft開發
GUI-Actor-7B是基於Qwen2-VL-7B-Instruct開發的視覺語言模型,專注於圖形用戶界面(GUI)代理任務,提供無座標的視覺接地解決方案。
下載量 207
發布時間 : 6/1/2025

模型概述

該模型通過添加基於注意力的動作頭並進行微調,能夠在GUI接地任務中表現出色,適用於自動化GUI操作場景。

模型特點

無座標視覺接地
採用創新的無座標解決方案,直接預測GUI操作位置,簡化交互流程
基於注意力機制的動作頭
通過專門設計的注意力動作頭增強模型對GUI元素的定位能力
多尺寸模型選擇
提供從2B到7B不同參數規模的模型版本,適應不同計算資源需求
驗證器增強
可選配專用驗證器模型,進一步提升操作準確性

模型能力

GUI元素識別
屏幕操作定位
多模態理解(圖像+文本)
自動化任務執行

使用案例

軟件自動化測試
自動化UI測試
自動識別和操作軟件界面元素進行功能測試
在ScreenSpot-Pro基準測試上達到40.7%準確率
RPA流程自動化
業務流程自動化
通過視覺理解自動完成重複性GUI操作任務
在ScreenSpot-v2基準測試上達到89.5%準確率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase