🚀 Fintor-GUI-S2
Fintor-GUI-S2 是一個基於圖像和文本輸入生成文本的模型,它在圖形用戶界面(GUI)基礎模型方面表現出色,能有效解決 GUI 相關的文本生成問題,為多模態交互提供了強大的支持。
📦 安裝指南
文檔未提供具體安裝步驟,故跳過此章節。
✨ 主要特性
- Fintor-GUI-S2 是一個從 UI-TARS-7B-DPO 微調而來的 GUI 基礎模型。
- 使用 OS-Copilot 數據集進行微調,訓練採用了 SFT 和 LoRA 技術。
📚 詳細文檔
模型描述
Fintor-GUI-S2 是一個從 UI-TARS-7B-DPO 微調而來的 GUI 基礎模型。
評估結果
我們使用 Screenspot 在兩個基準測試集 Screenspot Pro 和 Screenspot v2 上對模型進行了評估。同時,我們還提供了在這些基準測試中使用的評估腳本。下表將我們模型的性能與基礎模型的性能進行了對比:
模型 |
大小 |
Screenspot Pro |
Screenspot v2 |
UI-TARS-7B-DPO |
7B |
27.0 |
83.0 |
我們的模型 |
|
|
|
Ui-Tars-7B-Instruct-Finetuned-Os-Atlas |
7B |
33.0 |
91.8 |
注意:基礎模型的得分略低於論文中提到的分數,因為用於評估的提示未公開。我們在評估基礎模型和微調模型時使用了默認提示。
訓練過程
該模型使用 OS-Copilot 數據集進行微調:OS-Copilot。

此模型使用 SFT 和 LoRA 進行訓練。
評估腳本
評估腳本可在此處獲取 - Screenspot_Ui-Tars
💻 使用示例
基礎用法
from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info
model = Qwen2VLForConditionalGeneration.from_pretrained(
"Fintor/Ui-Tars-7B-Instruct-Finetuned-Os-Atlas",
torch_dtype=torch.bfloat16,
attn_implementation="flash_attention_2",
device_map="auto",
)
processor = AutoProcessor.from_pretrained("Fintor/Ui-Tars-7B-Instruct-Finetuned-Os-Atlas")
messages = [
{
"role": "user",
"content": [
{
"type": "image",
"image": "path/to/image.jpeg",
},
{"type": "text", "text": "Describe this image."},
],
}
]
text = processor.apply_chat_template(
messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
text=[text],
images=image_inputs,
videos=video_inputs,
padding=True,
return_tensors="pt",
)
inputs = inputs.to("cuda")
generated_ids = model.generate(**inputs, max_new_tokens=128)
generated_ids_trimmed = [
out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)
📄 許可證
本模型使用 Apache-2.0 許可證。
📚 引用
文檔未提供具體引用內容,故跳過此章節。
📋 模型信息
屬性 |
詳情 |
模型類型 |
圖像文本到文本 |
訓練數據 |
OS-Copilot/OS-Atlas-data |
基礎模型 |
bytedance-research/UI-TARS-7B-DPO |
庫名稱 |
transformers |
標籤 |
多模態、GUI |