G

GUI Actor 7B Qwen2 VL

microsoftによって開発
GUI-Actor-7BはQwen2-VL-7B-Instructをベースに開発されたビジュアル言語モデルで、グラフィカルユーザーインターフェイス(GUI)エージェントタスクに特化し、座標なしのビジュアル接地ソリューションを提供します。
ダウンロード数 207
リリース時間 : 6/1/2025

モデル概要

このモデルは、注意力ベースの動作ヘッドを追加して微調整することで、GUI接地タスクで優れた性能を発揮し、自動化GUI操作シーンに適しています。

モデル特徴

座標なしビジュアル接地
革新的な座標なしソリューションを採用し、直接GUI操作位置を予測し、インタラクションプロセスを簡素化します。
注意力機構ベースの動作ヘッド
特別に設計された注意力動作ヘッドにより、モデルのGUI要素の定位能力を強化します。
多サイズモデル選択
20億から70億までの異なるパラメータ規模のモデルバージョンを提供し、異なる計算リソースのニーズに対応します。
バリデータ強化
専用のバリデータモデルをオプションで搭載でき、操作の正確性をさらに向上させます。

モデル能力

GUI要素識別
画面操作定位
マルチモーダル理解(画像+テキスト)
自動化タスク実行

使用事例

ソフトウェア自動化テスト
自動化UIテスト
ソフトウェアインターフェイス要素を自動的に識別して操作し、機能テストを行います。
ScreenSpot-Proベンチマークテストで40.7%の正確率を達成しました。
RPAプロセス自動化
ビジネスプロセス自動化
ビジュアル理解を通じて自動的に繰り返しのGUI操作タスクを完了します。
ScreenSpot-v2ベンチマークテストで89.5%の正確率を達成しました。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase