🚀 UForm-Gen2-dpo 模型
UForm-Gen2-dpo 是一款小型生成式视觉语言模型,借助直接偏好优化(DPO)方法,在偏好数据集 VLFeedback 和 LLaVA-Human-Preference-10K 上针对图像描述和视觉问答任务进行了对齐。该模型可用于图像描述、回答关于图像的问题,也适用于多模态聊天。
🚀 快速开始
模型组成
UForm-Gen2-dpo 模型由两部分组成:
- 类 CLIP 的 ViT-H/14
- Qwen1.5 - 0.5B - Chat
训练信息
该模型在配备 8 块 H100 GPU 的 DGX - H100 上训练不到一天即可完成。感谢 Nebius.ai 提供的计算资源 🤗
使用示例
基础用法
from transformers import AutoModel, AutoProcessor
model = AutoModel.from_pretrained("unum-cloud/uform-gen2-dpo", trust_remote_code=True)
processor = AutoProcessor.from_pretrained("unum-cloud/uform-gen2-dpo", trust_remote_code=True)
prompt = "Question or Instruction"
image = Image.open("image.jpg")
inputs = processor(text=[prompt], images=[image], return_tensors="pt")
with torch.inference_mode():
output = model.generate(
**inputs,
do_sample=False,
use_cache=True,
max_new_tokens=256,
eos_token_id=151645,
pad_token_id=processor.tokenizer.pad_token_id
)
prompt_len = inputs["input_ids"].shape[1]
decoded_text = processor.batch_decode(output[:, prompt_len:])[0]
该生成式模型可用于为图像添加描述、回答关于图像的问题,也适用于多模态聊天。你可以在我们的演示空间中查看不同提示的示例。
✨ 主要特性
- 功能多样:可用于图像描述、视觉问答以及多模态聊天。
- 训练高效:在强大的计算资源支持下,训练时间不到一天。
📦 安装指南
文档未提供具体安装步骤,暂不展示。
💻 使用示例
基础用法
from transformers import AutoModel, AutoProcessor
model = AutoModel.from_pretrained("unum-cloud/uform-gen2-dpo", trust_remote_code=True)
processor = AutoProcessor.from_pretrained("unum-cloud/uform-gen2-dpo", trust_remote_code=True)
prompt = "Question or Instruction"
image = Image.open("image.jpg")
inputs = processor(text=[prompt], images=[image], return_tensors="pt")
with torch.inference_mode():
output = model.generate(
**inputs,
do_sample=False,
use_cache=True,
max_new_tokens=256,
eos_token_id=151645,
pad_token_id=processor.tokenizer.pad_token_id
)
prompt_len = inputs["input_ids"].shape[1]
decoded_text = processor.batch_decode(output[:, prompt_len:])[0]
高级用法
文档未提供高级用法示例,暂不展示。
📚 详细文档
模型描述
UForm - Gen2 - dpo 是一个小型生成式视觉语言模型,在偏好数据集 VLFeedback 和 LLaVA - Human - Preference - 10K 上,使用直接偏好优化(DPO)方法进行图像描述和视觉问答任务的对齐。
模型结构
模型由两部分构成:
- CLIP 类的 ViT - H/14
- Qwen1.5 - 0.5B - Chat
训练情况
该模型在配备 8 块 H100 GPU 的 DGX - H100 上训练不到一天。
模型用途
该生成式模型可用于为图像添加描述、回答关于图像的问题,也适用于多模态聊天。
🔧 技术细节
评估指标
评估指标 |
详情 |
感知能力 |
模型在感知图像特征方面的表现 |
推理能力 |
模型进行逻辑推理的能力 |
OCR 能力 |
光学字符识别能力 |
艺术理解能力 |
对艺术作品的理解和描述能力 |
名人识别能力 |
识别名人的能力 |
代码推理能力 |
进行代码相关推理的能力 |
颜色识别能力 |
识别颜色的能力 |
常识推理能力 |
基于常识进行推理的能力 |
计数能力 |
对图像中物体计数的能力 |
存在判断能力 |
判断物体是否存在的能力 |
地标识别能力 |
识别地标建筑的能力 |
数值计算能力 |
进行数值计算的能力 |
位置判断能力 |
判断物体位置的能力 |
海报理解能力 |
理解海报内容的能力 |
场景识别能力 |
识别场景的能力 |
文本翻译能力 |
进行文本翻译的能力 |
评估结果
模型 |
感知能力 |
推理能力 |
OCR 能力 |
艺术理解能力 |
名人识别能力 |
代码推理能力 |
颜色识别能力 |
常识推理能力 |
计数能力 |
存在判断能力 |
地标识别能力 |
数值计算能力 |
位置判断能力 |
海报理解能力 |
场景识别能力 |
文本翻译能力 |
uform - gen2 - dpo |
1,048.75 |
224.64 |
72.50 |
97.25 |
62.65 |
67.50 |
123.33 |
57.14 |
136.67 |
195.00 |
104.00 |
50.00 |
51.67 |
59.18 |
146.50 |
50.00 |
uform - gen2 - qwen - 500m |
863.40 |
236.43 |
57.50 |
93.00 |
67.06 |
57.50 |
78.33 |
81.43 |
53.33 |
150.00 |
98.00 |
50.00 |
50.00 |
62.93 |
153.25 |
47.50 |
📄 许可证
本项目使用 apache - 2.0
许可证。