UForm-Gen2-dpo開源視覺語言模型 - 免費實現圖像描述與視覺問答

首頁

Uform Gen2 Dpo

由unum-cloud開發

UForm-Gen2-dpo 是一個小型生成式視覺語言模型，通過直接偏好優化（DPO）在 VLFeedback 和 LLaVA-Human-Preference-10K 偏好數據集上針對圖像描述生成和視覺問答任務進行對齊訓練。

圖像生成文本

Transformers

英語開源協議:Apache-2.0 #多模態對話 #偏好優化對齊 #輕量級視覺語言模型

下載量 3,568

發布時間 : 3/27/2024

模型概述

該模型主要用於圖像描述生成、視覺問答以及多模態對話場景，包含類CLIP架構的ViT-H/14視覺編碼器和Qwen1.5-0.5B-Chat語言模型。

模型特點

直接偏好優化訓練

在VLFeedback和LLaVA-Human-Preference-10K偏好數據集上進行DPO訓練，提升模型輸出質量

高效訓練

在8塊H100 GPU的DGX-H100服務器上訓練耗時不足一天

多模態能力

結合視覺編碼器和語言模型，實現圖像理解和文本生成

模型能力

圖像描述生成

視覺問答

多模態對話

圖像理解

文本生成

使用案例

內容生成

圖像詳細描述

為輸入的圖像生成詳細描述

示例輸出：'圖片展示了一間光線充足、寧靜的臥室...'

圖像簡短描述

為輸入的圖像生成簡短描述

示例輸出：'一隻白橘相間的貓用後腿站立...'

智能問答

視覺問答

回答關於圖像內容的問題

🚀 UForm-Gen2-dpo 模型

UForm-Gen2-dpo 是一款小型生成式視覺語言模型，藉助直接偏好優化（DPO）方法，在偏好數據集 VLFeedback 和 LLaVA-Human-Preference-10K 上針對圖像描述和視覺問答任務進行了對齊。該模型可用於圖像描述、回答關於圖像的問題，也適用於多模態聊天。

🚀 快速開始

模型組成

UForm-Gen2-dpo 模型由兩部分組成：

類 CLIP 的 ViT-H/14
Qwen1.5 - 0.5B - Chat

訓練信息

該模型在配備 8 塊 H100 GPU 的 DGX - H100 上訓練不到一天即可完成。感謝 Nebius.ai 提供的計算資源 🤗

使用示例

基礎用法

from transformers import AutoModel, AutoProcessor
model = AutoModel.from_pretrained("unum-cloud/uform-gen2-dpo", trust_remote_code=True)
processor = AutoProcessor.from_pretrained("unum-cloud/uform-gen2-dpo", trust_remote_code=True)
prompt = "Question or Instruction"
image = Image.open("image.jpg")
inputs = processor(text=[prompt], images=[image], return_tensors="pt")
with torch.inference_mode():
     output = model.generate(
        **inputs,
        do_sample=False,
        use_cache=True,
        max_new_tokens=256,
        eos_token_id=151645,
        pad_token_id=processor.tokenizer.pad_token_id
    )
prompt_len = inputs["input_ids"].shape[1]
decoded_text = processor.batch_decode(output[:, prompt_len:])[0]

該生成式模型可用於為圖像添加描述、回答關於圖像的問題，也適用於多模態聊天。你可以在我們的演示空間中查看不同提示的示例。

✨ 主要特性

功能多樣：可用於圖像描述、視覺問答以及多模態聊天。
訓練高效：在強大的計算資源支持下，訓練時間不到一天。

📦 安裝指南

文檔未提供具體安裝步驟，暫不展示。

💻 使用示例

基礎用法

from transformers import AutoModel, AutoProcessor
model = AutoModel.from_pretrained("unum-cloud/uform-gen2-dpo", trust_remote_code=True)
processor = AutoProcessor.from_pretrained("unum-cloud/uform-gen2-dpo", trust_remote_code=True)
prompt = "Question or Instruction"
image = Image.open("image.jpg")
inputs = processor(text=[prompt], images=[image], return_tensors="pt")
with torch.inference_mode():
     output = model.generate(
        **inputs,
        do_sample=False,
        use_cache=True,
        max_new_tokens=256,
        eos_token_id=151645,
        pad_token_id=processor.tokenizer.pad_token_id
    )
prompt_len = inputs["input_ids"].shape[1]
decoded_text = processor.batch_decode(output[:, prompt_len:])[0]

高級用法

文檔未提供高級用法示例，暫不展示。

📚 詳細文檔

模型描述

UForm - Gen2 - dpo 是一個小型生成式視覺語言模型，在偏好數據集 VLFeedback 和 LLaVA - Human - Preference - 10K 上，使用直接偏好優化（DPO）方法進行圖像描述和視覺問答任務的對齊。

模型結構

模型由兩部分構成：

CLIP 類的 ViT - H/14
Qwen1.5 - 0.5B - Chat

訓練情況

該模型在配備 8 塊 H100 GPU 的 DGX - H100 上訓練不到一天。

模型用途

該生成式模型可用於為圖像添加描述、回答關於圖像的問題，也適用於多模態聊天。

🔧 技術細節

評估指標

評估指標	詳情
感知能力	模型在感知圖像特徵方面的表現
推理能力	模型進行邏輯推理的能力
OCR 能力	光學字符識別能力
藝術理解能力	對藝術作品的理解和描述能力
名人識別能力	識別名人的能力
代碼推理能力	進行代碼相關推理的能力
顏色識別能力	識別顏色的能力
常識推理能力	基於常識進行推理的能力
計數能力	對圖像中物體計數的能力
存在判斷能力	判斷物體是否存在的能力
地標識別能力	識別地標建築的能力
數值計算能力	進行數值計算的能力
位置判斷能力	判斷物體位置的能力
海報理解能力	理解海報內容的能力
場景識別能力	識別場景的能力
文本翻譯能力	進行文本翻譯的能力

評估結果

模型	感知能力	推理能力	OCR 能力	藝術理解能力	名人識別能力	代碼推理能力	顏色識別能力	常識推理能力	計數能力	存在判斷能力	地標識別能力	數值計算能力	位置判斷能力	海報理解能力	場景識別能力	文本翻譯能力
uform - gen2 - dpo	1,048.75	224.64	72.50	97.25	62.65	67.50	123.33	57.14	136.67	195.00	104.00	50.00	51.67	59.18	146.50	50.00
uform - gen2 - qwen - 500m	863.40	236.43	57.50	93.00	67.06	57.50	78.33	81.43	53.33	150.00	98.00	50.00	50.00	62.93	153.25	47.50