G

GUI Actor 2B Qwen2 VL

microsoftによって開発
GUI-Actor-2BはQwen2-VL-2Bに基づく視覚言語モデルで、グラフィカルユーザーインターフェイス(GUI)の位置特定タスク用に設計されています。アテンションベースのアクションヘッドを追加して微調整することで、複数のGUI位置特定ベンチマークテストで良好な結果を得ています。
ダウンロード数 163
リリース時間 : 6/1/2025

モデル概要

このモデルは主にグラフィカルユーザーインターフェイスの位置特定タスクを実行するために使用され、画面スクリーンショットと命令に基づいて操作位置を予測することができます。

モデル特徴

Qwen2-VLバックボーンモデルに基づく
強力なQwen2-VL-2B視覚言語モデルをベースにしており、優れた視覚理解能力を備えています。
専用アクションヘッドの設計
アテンションベースのアクションヘッドを追加し、GUI位置特定タスクを専用に最適化しています。
複数のベンチマークテストで優れた成績
ScreenSpot-Pro、ScreenSpot、ScreenSpot-v2などの複数のGUI位置特定ベンチマークでトップの成績を収めています。

モデル能力

GUI要素位置特定
視覚言語理解
画面命令理解
操作点予測

使用事例

自動化テスト
GUI要素位置特定
命令に基づいて画面上の特定の要素を自動的に位置特定します。
ScreenSpot-Proで36.7%の正解率を達成しました。
支援ツール
障害者用操作支援
視覚障害者が音声命令でグラフィカルインターフェイスを操作するのを支援します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase