Fintor-GUI-S2開源模型 - 專注GUI多模態任務，免費助力界面操作

首頁

Fintor GUI S2

由Fintor開發

Fintor-GUI-S2 是一個基於 UI-TARS-7B-DPO 微調的 GUI 基礎模型，專注於圖形用戶界面(GUI)的多模態任務。

圖像生成文本

Transformers

開源協議:Apache-2.0 #GUI多模態理解 #屏幕元素定位 #指令微調增強

下載量 190

發布時間 : 3/12/2025

模型概述

該模型是針對圖形用戶界面(GUI)優化的多模態模型，能夠理解和生成與GUI相關的文本和圖像內容。

模型特點

GUI優化

專門針對圖形用戶界面任務進行微調，在GUI相關任務上表現優異。

多模態能力

能夠同時處理圖像和文本信息，實現跨模態理解與生成。

性能提升

在Screenspot基準測試上相比基礎模型有顯著性能提升。

模型能力

GUI圖像理解

跨模態文本生成

GUI元素識別

多模態推理

使用案例

GUI自動化

GUI元素描述生成

根據GUI截圖生成界面元素的描述文本

在Screenspot v2基準上達到91.8的準確率

GUI操作指導

根據GUI圖像生成操作步驟說明

🚀 Fintor-GUI-S2

Fintor-GUI-S2 是一個基於圖像和文本輸入生成文本的模型，它在圖形用戶界面（GUI）基礎模型方面表現出色，能有效解決 GUI 相關的文本生成問題，為多模態交互提供了強大的支持。

📦 安裝指南

文檔未提供具體安裝步驟，故跳過此章節。

✨ 主要特性

Fintor-GUI-S2 是一個從 UI-TARS-7B-DPO 微調而來的 GUI 基礎模型。
使用 OS-Copilot 數據集進行微調，訓練採用了 SFT 和 LoRA 技術。

📚 詳細文檔

模型描述

Fintor-GUI-S2 是一個從 UI-TARS-7B-DPO 微調而來的 GUI 基礎模型。

評估結果

我們使用 Screenspot 在兩個基準測試集 Screenspot Pro 和 Screenspot v2 上對模型進行了評估。同時，我們還提供了在這些基準測試中使用的評估腳本。下表將我們模型的性能與基礎模型的性能進行了對比：

模型	大小	Screenspot Pro	Screenspot v2
UI-TARS-7B-DPO	7B	27.0	83.0
我們的模型
Ui-Tars-7B-Instruct-Finetuned-Os-Atlas	7B	33.0	91.8

注意：基礎模型的得分略低於論文中提到的分數，因為用於評估的提示未公開。我們在評估基礎模型和微調模型時使用了默認提示。

訓練過程

該模型使用 OS-Copilot 數據集進行微調：OS-Copilot。

此模型使用 SFT 和 LoRA 進行訓練。

評估腳本

評估腳本可在此處獲取 - Screenspot_Ui-Tars

💻 使用示例

基礎用法

from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info
# default: Load the model on the available device(s)
model = Qwen2VLForConditionalGeneration.from_pretrained(
    "Fintor/Ui-Tars-7B-Instruct-Finetuned-Os-Atlas", 
    torch_dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
    device_map="auto",
)
# default processer
processor = AutoProcessor.from_pretrained("Fintor/Ui-Tars-7B-Instruct-Finetuned-Os-Atlas")
# Example input
messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "image": "path/to/image.jpeg",
            },
            {"type": "text", "text": "Describe this image."},
        ],
    }
]
# Preparation for inference
text = processor.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
    text=[text],
    images=image_inputs,
    videos=video_inputs,
    padding=True,
    return_tensors="pt",
)
inputs = inputs.to("cuda")
# Inference: Generation of the output
generated_ids = model.generate(**inputs, max_new_tokens=128)
generated_ids_trimmed = [
    out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)

📄 許可證

本模型使用 Apache-2.0 許可證。

📚 引用

文檔未提供具體引用內容，故跳過此章節。

📋 模型信息

屬性	詳情
模型類型	圖像文本到文本
訓練數據	OS-Copilot/OS-Atlas-data
基礎模型	bytedance-research/UI-TARS-7B-DPO
庫名稱	transformers
標籤	多模態、GUI