Q

Qwen2.5 VL 3B UI R1 E

LZXzjuによって開発
UI-R1-E-3BはQwen2.5-VL-3B-Instructを微調整した効率的なGUI位置特定モデルで、視覚的質問応答タスクに特化し、ユーザーインターフェースのスクリーンショット内での操作要素の位置特定と認識に優れています。
ダウンロード数 75
リリース時間 : 5/14/2025

モデル概要

このモデルは強化学習によりGUIエージェントの行動予測能力を強化し、ユーザーインターフェース内の操作要素を正確に識別し、実行コマンドに必要な操作(クリックなど)とその座標位置を予測できます。

モデル特徴

効率的なGUI位置特定
ユーザーインターフェースのスクリーンショット内で操作要素を正確に位置特定し、クリック座標を予測
思考プロセス不要の推論
思考プロセスを伴うバージョンと比較して、推論速度が速く、精度も高い
マルチプラットフォームサポート
モバイル端末(Mobile)、デスクトップ端末(Desktop)、ウェブ(Web)インターフェースで優れたパフォーマンスを発揮

モデル能力

GUI要素認識
操作命令理解
座標位置予測
クロスプラットフォームインターフェース分析

使用事例

自動テスト
UI自動テスト
インターフェース要素を自動認識し、テスト操作を実行
ScreenSpotV2ベンチマークテストで平均精度89.5%を達成
アクセシビリティ
視覚障害者支援
視覚障害者がインターフェース要素の位置を理解するのを支援
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase