🚀 Fintor-GUI-S2
Fintor-GUI-S2は、GUI接地モデルであり、UI-TARS-7B-DPO からファインチューニングされています。このモデルは、画像とテキストを入力としてテキストを出力するタスクに特化しています。
📄 ライセンス
このモデルはApache-2.0ライセンスの下で提供されています。
🚀 クイックスタート
from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info
model = Qwen2VLForConditionalGeneration.from_pretrained(
"Fintor/Ui-Tars-7B-Instruct-Finetuned-Os-Atlas",
torch_dtype=torch.bfloat16,
attn_implementation="flash_attention_2",
device_map="auto",
)
processor = AutoProcessor.from_pretrained("Fintor/Ui-Tars-7B-Instruct-Finetuned-Os-Atlas")
messages = [
{
"role": "user",
"content": [
{
"type": "image",
"image": "path/to/image.jpeg",
},
{"type": "text", "text": "Describe this image."},
],
}
]
text = processor.apply_chat_template(
messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
text=[text],
images=image_inputs,
videos=video_inputs,
padding=True,
return_tensors="pt",
)
inputs = inputs.to("cuda")
generated_ids = model.generate(**inputs, max_new_tokens=128)
generated_ids_trimmed = [
out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)
✨ 主な機能
- GUI接地機能:画像とテキストを入力として、GUI関連の情報を適切に出力します。
- ファインチューニング済み:UI-TARS-7B-DPOをベースに、OS-Copilotデータセットでファインチューニングされています。
📚 ドキュメント
モデル説明
Fintor-GUI-S2は、UI-TARS-7B-DPO からファインチューニングされたGUI接地モデルです。
評価結果
このモデルは、Screenspot を使用して、Screenspot ProとScreenspot v2の2つのベンチマークで評価されました。また、これらのベンチマークで使用された評価スクリプトも含まれています。以下の表は、ベースモデルとの性能比較を示しています。
モデル |
サイズ |
Screenspot Pro |
Screenspot v2 |
UI-TARS-7B-DPO |
7B |
27.0 |
83.0 |
Ours |
|
|
|
Ui-Tars-7B-Instruct-Finetuned-Os-Atlas |
7B |
33.0 |
91.8 |
⚠️ 重要提示
ベースモデルのスコアは、論文で述べられているスコアよりもわずかに低くなっています。これは、評価に使用されるプロンプトが公開されていないためです。ベースモデルとファインチューニングされたモデルの評価には、デフォルトのプロンプトを使用しました。
訓練手順
このモデルは、OS-Copilot データセットを使用してファインチューニングされています。

このモデルは、SFTとLoRAを使用して訓練されています。
評価スクリプト
評価スクリプトはこちらにあります - Screenspot_Ui-Tars
🔧 技術詳細
このモデルは、SFT(Supervised Fine-Tuning)とLoRA(Low-Rank Adaptation)を使用して訓練されています。訓練データとして、OS-Copilotデータセットが使用されています。
Citation
元のREADMEに引用情報は具体的に記載されていなかったため、このセクションは省略されています。