🚀 UForm-Gen2-dpo 模型
UForm-Gen2-dpo 是一款小型生成式視覺語言模型,藉助直接偏好優化(DPO)方法,在偏好數據集 VLFeedback 和 LLaVA-Human-Preference-10K 上針對圖像描述和視覺問答任務進行了對齊。該模型可用於圖像描述、回答關於圖像的問題,也適用於多模態聊天。
🚀 快速開始
模型組成
UForm-Gen2-dpo 模型由兩部分組成:
- 類 CLIP 的 ViT-H/14
- Qwen1.5 - 0.5B - Chat
訓練信息
該模型在配備 8 塊 H100 GPU 的 DGX - H100 上訓練不到一天即可完成。感謝 Nebius.ai 提供的計算資源 🤗
使用示例
基礎用法
from transformers import AutoModel, AutoProcessor
model = AutoModel.from_pretrained("unum-cloud/uform-gen2-dpo", trust_remote_code=True)
processor = AutoProcessor.from_pretrained("unum-cloud/uform-gen2-dpo", trust_remote_code=True)
prompt = "Question or Instruction"
image = Image.open("image.jpg")
inputs = processor(text=[prompt], images=[image], return_tensors="pt")
with torch.inference_mode():
output = model.generate(
**inputs,
do_sample=False,
use_cache=True,
max_new_tokens=256,
eos_token_id=151645,
pad_token_id=processor.tokenizer.pad_token_id
)
prompt_len = inputs["input_ids"].shape[1]
decoded_text = processor.batch_decode(output[:, prompt_len:])[0]
該生成式模型可用於為圖像添加描述、回答關於圖像的問題,也適用於多模態聊天。你可以在我們的演示空間中查看不同提示的示例。
✨ 主要特性
- 功能多樣:可用於圖像描述、視覺問答以及多模態聊天。
- 訓練高效:在強大的計算資源支持下,訓練時間不到一天。
📦 安裝指南
文檔未提供具體安裝步驟,暫不展示。
💻 使用示例
基礎用法
from transformers import AutoModel, AutoProcessor
model = AutoModel.from_pretrained("unum-cloud/uform-gen2-dpo", trust_remote_code=True)
processor = AutoProcessor.from_pretrained("unum-cloud/uform-gen2-dpo", trust_remote_code=True)
prompt = "Question or Instruction"
image = Image.open("image.jpg")
inputs = processor(text=[prompt], images=[image], return_tensors="pt")
with torch.inference_mode():
output = model.generate(
**inputs,
do_sample=False,
use_cache=True,
max_new_tokens=256,
eos_token_id=151645,
pad_token_id=processor.tokenizer.pad_token_id
)
prompt_len = inputs["input_ids"].shape[1]
decoded_text = processor.batch_decode(output[:, prompt_len:])[0]
高級用法
文檔未提供高級用法示例,暫不展示。
📚 詳細文檔
模型描述
UForm - Gen2 - dpo 是一個小型生成式視覺語言模型,在偏好數據集 VLFeedback 和 LLaVA - Human - Preference - 10K 上,使用直接偏好優化(DPO)方法進行圖像描述和視覺問答任務的對齊。
模型結構
模型由兩部分構成:
- CLIP 類的 ViT - H/14
- Qwen1.5 - 0.5B - Chat
訓練情況
該模型在配備 8 塊 H100 GPU 的 DGX - H100 上訓練不到一天。
模型用途
該生成式模型可用於為圖像添加描述、回答關於圖像的問題,也適用於多模態聊天。
🔧 技術細節
評估指標
評估指標 |
詳情 |
感知能力 |
模型在感知圖像特徵方面的表現 |
推理能力 |
模型進行邏輯推理的能力 |
OCR 能力 |
光學字符識別能力 |
藝術理解能力 |
對藝術作品的理解和描述能力 |
名人識別能力 |
識別名人的能力 |
代碼推理能力 |
進行代碼相關推理的能力 |
顏色識別能力 |
識別顏色的能力 |
常識推理能力 |
基於常識進行推理的能力 |
計數能力 |
對圖像中物體計數的能力 |
存在判斷能力 |
判斷物體是否存在的能力 |
地標識別能力 |
識別地標建築的能力 |
數值計算能力 |
進行數值計算的能力 |
位置判斷能力 |
判斷物體位置的能力 |
海報理解能力 |
理解海報內容的能力 |
場景識別能力 |
識別場景的能力 |
文本翻譯能力 |
進行文本翻譯的能力 |
評估結果
模型 |
感知能力 |
推理能力 |
OCR 能力 |
藝術理解能力 |
名人識別能力 |
代碼推理能力 |
顏色識別能力 |
常識推理能力 |
計數能力 |
存在判斷能力 |
地標識別能力 |
數值計算能力 |
位置判斷能力 |
海報理解能力 |
場景識別能力 |
文本翻譯能力 |
uform - gen2 - dpo |
1,048.75 |
224.64 |
72.50 |
97.25 |
62.65 |
67.50 |
123.33 |
57.14 |
136.67 |
195.00 |
104.00 |
50.00 |
51.67 |
59.18 |
146.50 |
50.00 |
uform - gen2 - qwen - 500m |
863.40 |
236.43 |
57.50 |
93.00 |
67.06 |
57.50 |
78.33 |
81.43 |
53.33 |
150.00 |
98.00 |
50.00 |
50.00 |
62.93 |
153.25 |
47.50 |
📄 許可證
本項目使用 apache - 2.0
許可證。