U

Uform Gen2 Dpo

由unum-cloud開發
UForm-Gen2-dpo 是一個小型生成式視覺語言模型,通過直接偏好優化(DPO)在 VLFeedback 和 LLaVA-Human-Preference-10K 偏好數據集上針對圖像描述生成和視覺問答任務進行對齊訓練。
下載量 3,568
發布時間 : 3/27/2024

模型概述

該模型主要用於圖像描述生成、視覺問答以及多模態對話場景,包含類CLIP架構的ViT-H/14視覺編碼器和Qwen1.5-0.5B-Chat語言模型。

模型特點

直接偏好優化訓練
在VLFeedback和LLaVA-Human-Preference-10K偏好數據集上進行DPO訓練,提升模型輸出質量
高效訓練
在8塊H100 GPU的DGX-H100服務器上訓練耗時不足一天
多模態能力
結合視覺編碼器和語言模型,實現圖像理解和文本生成

模型能力

圖像描述生成
視覺問答
多模態對話
圖像理解
文本生成

使用案例

內容生成
圖像詳細描述
為輸入的圖像生成詳細描述
示例輸出:'圖片展示了一間光線充足、寧靜的臥室...'
圖像簡短描述
為輸入的圖像生成簡短描述
示例輸出:'一隻白橘相間的貓用後腿站立...'
智能問答
視覺問答
回答關於圖像內容的問題
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase