GTA1 - 32BオープンソースGUI定位モデル - 思考チェーン推理不要で直接クリックして正確に位置決め

ホーム

GTA1 32B

HelloKKMeによって開発

GTA1は強化学習（GRPO）に基づくGUI位置決定モデルで、成功したクリックに直接報酬を与えることで正確な位置決定を実現し、長い思考チェーン推論を避けます。

画像生成テキスト

Transformers

#強化学習GUI位置決定 #高精度クリック予測 #多サイズ画面適合

ダウンロード数 220

リリース時間 : 6/4/2025

モデル概要

このプロジェクトは強化学習アルゴリズムGRPOを利用してGUI位置決定モデルを訓練し、より正確なGUI要素の位置決定を実現することに焦点を当てています。モデルは複雑なテキスト推論に依存するのではなく、操作可能な実際の応答を直接励まし、いくつかの挑戦的なデータセットで優れた性能を発揮します。

モデル特徴

目標アライメント

強化学習（GRPOなど）は、成功したクリックに報酬を与えるという固有の目標アライメント特性を持ち、長いテキスト思考チェーン（CoT）推論を促すのではなく、正確な位置決定を実現するのに役立ちます。

直接励起

長いCoT推論に大きく依存する方法とは異なり、GRPOは操作可能で実際に基づく応答を直接励まします。

卓越した性能

いくつかの挑戦的なデータセットでベンチマークテストを行い、モデルはすべてのオープンソースモデルファミリーの中で常に最高の結果を達成します。

モデル能力

GUI要素位置決定

ビジュアル - 言語理解

多尺度画像処理

使用事例

自動化テスト

GUI要素自動クリック

自動化テストで指定されたGUI要素を自動的に位置決定してクリックします。

テストの効率と精度を向上させます。

支援技術

バリアフリーインタラクション

視覚障害者が画面上のインタラクション要素を位置決定するのを支援します。

バリアフリーユーザー体験を向上させます。

🚀 強化学習GUI位置特定モデルGTA1

このプロジェクトでは、強化学習（GRPOなど）を利用してGUIの位置特定を実現しています。長い思考チェーン推論に依存するのではなく、成功したクリックに対する報酬を与えることで、実際に操作可能で実用的な応答を直接促しています。GRPOを使って訓練した最先端のGUI位置特定モデルを公開しています。

🚀 クイックスタート

このプロジェクトは主に、強化学習をGUIの位置特定に応用することに焦点を当てています。GRPOアルゴリズムを用いてモデルを訓練し、より正確なGUI位置特定を実現します。複数の挑戦的なデータセットでのテストにより、モデルの性能が検証されています。

✨ 主な機能

目標の一致：強化学習（GRPOなど）は、成功したクリックに報酬を与えるという固有の目標一致特性を持っており、長いテキスト思考チェーン（CoT）推論を促すのではなく、位置特定に役立ちます。
直接的な励起：長いCoT推論に大きく依存する方法とは異なり、GRPOは操作可能で実用的な応答を直接促します。
卓越した性能：複数の挑戦的なデータセットでベンチマークテストを行い、このモデルはすべてのオープンソースモデルファミリーの中で常に最高の結果を達成しています。

📚 ドキュメント

モデル性能

標準的な評価プロトコルに従い、3つの挑戦的なデータセットでモデルのベンチマークテストを行いました。以下は比較結果です。

モデル	サイズ	オープンソース	ScreenSpot-V2	ScreenSpotPro	OSWORLD-G
OpenAI CUA	—	❌	87.9	23.4	—
Claude 3.7	—	❌	87.6	27.7	—
JEDI - 7B	7B	✅	91.7	39.5	54.1
SE - GUI	7B	✅	90.3	47.0	—
UI - TARS	7B	✅	91.6	35.7	47.5
UI - TARS - 1.5*	7B	✅	89.7*	42.0*	64.2*
UGround - v1 - 7B	7B	✅	—	31.1	36.4
Qwen2.5 - VL - 32B - Instruct	32B	✅	91.9*	48.0	59.6*
UGround - v1 - 72B	72B	✅	—	34.5	—
Qwen2.5 - VL - 72B - Instruct	72B	✅	94.00*	53.3	62.2*
UI - TARS	72B	✅	90.3	38.1	—
GTA1 (当社モデル)	7B	✅	92.4 _{(∆ +2.7)}	50.1_{(∆ +8.1)}	67.7 _{(∆ +3.5)}
GTA1 (当社モデル)	32B	✅	93.2 _{(∆ +1.3)}	53.6 _{(∆ +5.6)}	61.9_{(∆ +2.3)}
GTA1 (当社モデル)	72B	✅	94.8_{(∆ +0.8)}	58.4 _{(∆ +5.1)}	66.7_{(∆ +4.5)}

⚠️ 重要な注意事項

モデルのサイズは、10億（B）パラメータで表されます。

ハイフン（—）は、現在取得できない結果を示します。

上付きのアスタリスク（﹡）は、当社の評価結果を示します。

UI - TARS - 1.5 7B、Qwen2.5 - VL - 32B - Instruct、Qwen2.5 - VL - 72B - Instruct は、当社のベースラインモデルとして使用されています。

∆ は、当社のモデルがベースラインと比較したときの性能向上を示します。

💻 使用例

基本的な使用法

以下のコードスニペットは、訓練済みのモデルを使用して推論を行う方法を示しています。

from PIL import Image
from qwen_vl_utils import process_vision_info, smart_resize
from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor
import torch
import re

SYSTEM_PROMPT = '''
You are an expert UI element locator. Given a GUI image and a user's element description, provide the coordinates of the specified element as a single (x,y) point. The image resolution is height {height} and width {width}. For elements with area, return the center point.

Output the coordinate pair exactly:
(x,y)
'''
SYSTEM_PROMPT=SYSTEM_PROMPT.strip()

# Function to extract coordinates from model output
def extract_coordinates(raw_string):
    try:
        matches = re.findall(r"\((-?\d*\.?\d+),\s*(-?\d*\.?\d+)\)", raw_string)
        return [tuple(map(int, match)) for match in matches][0]
    except:
        return 0,0

# Load model and processor
model_path = "HelloKKMe/GTA1-32B"
max_new_tokens = 32

model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
    model_path,
    torch_dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
    device_map="auto"
)
processor = AutoProcessor.from_pretrained(
    model_path,
    min_pixels=3136,
    max_pixels= 4096 * 2160
)

# Load and resize image
image = Image.open("file path")
instruction = "description"  # Instruction for grounding
width, height = image.width, image.height

resized_height, resized_width = smart_resize(
    image.height,
    image.width,
    factor=processor.image_processor.patch_size * processor.image_processor.merge_size,
    min_pixels=processor.image_processor.min_pixels,
    max_pixels=processor.image_processor.max_pixels,
)
resized_image = image.resize((resized_width, resized_height))
scale_x, scale_y = width / resized_width, height / resized_height

# Prepare system and user messages
system_message = {
   "role": "system",
   "content": SYSTEM_PROMPT.format(height=resized_height,width=resized_width)
}

user_message = {
    "role": "user",
    "content": [
        {"type": "image", "image": resized_image},
        {"type": "text", "text": instruction}
    ]
}

# Tokenize and prepare inputs
image_inputs, video_inputs = process_vision_info([system_message, user_message])
text = processor.apply_chat_template([system_message, user_message], tokenize=False, add_generation_prompt=True)
inputs = processor(text=[text], images=image_inputs, videos=video_inputs, padding=True, return_tensors="pt")
inputs = inputs.to(model.device)

# Generate prediction
output_ids = model.generate(**inputs, max_new_tokens=max_new_tokens, do_sample=False, temperature=1.0, use_cache=True)
generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(inputs.input_ids, output_ids)]
output_text = processor.batch_decode(generated_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True)[0]

# Extract and rescale coordinates
pred_x, pred_y  = extract_coordinates(output_text) 
pred_x*=scale_x
pred_y*=scale_y 
print(pred_x,pred_y)