xgen-mm-phi3-mini-instruct-dpo-r-v1.5開源多模態模型

首頁

Xgen Mm Phi3 Mini Instruct Dpo R V1.5

由Salesforce開發

xGen-MM是Salesforce AI Research開發的多模態基礎模型系列，基於BLIP系列改進，在高質量圖像字幕和交錯圖文數據上訓練。

圖像生成文本

Safetensors

英語開源協議:Apache-2.0 #多模態指令微調 #安全增強 #交錯圖文理解

下載量 305

發布時間 : 8/9/2024

模型概述

該模型是xGen-MM系列的DPO（Direct Preference Optimization）版本，專注於提升多模態理解能力和安全性，適用於圖像文本生成和交互任務。

模型特點

多模態理解

在單圖像和多圖像基準測試中表現優異，支持複雜的多模態交互任務。

安全優化

通過DPO訓練顯著降低有害內容生成概率（VLGuard得分5.2，優於基準模型）。

綜合性能

在POPE、MMBench、SEED-IMG等多個基準測試中超越同類模型。

模型能力

圖像描述生成

多圖像推理

安全內容過濾

視覺問答

跨模態理解

使用案例

內容審核

有害內容檢測

自動識別圖像和文本中的潛在有害內容

VLGuard得分5.2（越低越好）

教育

多模態學習助手

解析教材中的圖文內容並生成解釋

MMBench開發集得分76.4

🚀 xGen-MM 多模態大模型

xGen-MM 是Salesforce AI Research開發的一系列最新基礎多模態大模型（LMMs）。該系列在 BLIP 系列的成功設計基礎上進行了改進，融入了基礎增強功能，確保了更強大、更卓越的基礎。這些模型在高質量圖像字幕數據集和交錯的圖像 - 文本數據上進行了大規模訓練。

🚀 快速開始

若要使用我們的模型，請查看推理筆記本中的示例代碼。我們還提供了批量推理的示例腳本。

✨ 主要特性

先進架構：基於 BLIP 系列成功設計並改進，具備更強大基礎。
大規模訓練：在高質量圖像字幕數據集和交錯圖像 - 文本數據上進行大規模訓練。
多模型選擇：在v1.5（2024年8月）版本中，提供了一系列XGen-MM模型，包括 xgen-mm-phi3-mini-instruct-interleave-r-v1.5、xgen-mm-phi3-mini-base-r-v1.5、xgen-mm-phi3-mini-instruct-singleimg-r-v1.5 和 xgen-mm-phi3-mini-instruct-dpo-r-v1.5。

📚 詳細文檔

模型介紹

xGen-MM 是一系列最新的基礎多模態大模型（LMMs），由Salesforce AI Research開發。該系列在 BLIP 系列的成功設計基礎上進行了改進，融入了基礎增強功能，確保了更強大、更卓越的基礎。這些模型在高質量圖像字幕數據集和交錯的圖像 - 文本數據上進行了大規模訓練。

在v1.5（2024年8月）版本中，我們推出了一系列XGen-MM模型，具體如下：

🤗 xGen-MM-instruct-interleave (我們的主要指令模型)：xgen-mm-phi3-mini-instruct-interleave-r-v1.5
- 該模型在單圖像和多圖像基準測試中，整體得分均高於 xGen-MM-instruct。
🤗 xGen-MM-base：xgen-mm-phi3-mini-base-r-v1.5
🤗 xGen-MM-instruct：xgen-mm-phi3-mini-instruct-singleimg-r-v1.5
🤗 xGen-MM-instruct-dpo：xgen-mm-phi3-mini-instruct-dpo-r-v1.5

更多詳細信息，請查看我們的技術報告、微調代碼和項目頁面（即將推出）。

DPO模型結果

模型	VLGuard (↓)	HallusionBench (↑)	POPE (↑)	MMBench (dev) (↑)	SEED - IMG (↑)	MMStar (↑)	MME (norm) (↑)
Phi - 3 - vision*	9.1	-	83.5	74.2	71.0	47.9	55.3
xgen - mm - phi3 - mini - instruct - dpo - r - v1 (我們的模型)	5.2	56.6	86.8	76.4	72.1	47.1	64.4

(* = 我們的評估)

我們在下面展示了一些定性示例，這些示例體現了我們模型的安全特性，這些特性補充了模型的多模態理解能力。

防曬霜

可復現性

我們的評估基於 open - compass/VLMEvalKit 實現。我們將向該倉庫提交一個PR，以支持XGen-MM評估。

偏差、風險、侷限性和倫理考量

主要數據來源來自互聯網，包括網頁、圖像素材網站和研究社區發佈的精選數據集。由於已知的CSAM問題，我們排除了某些數據，如LAION。該模型可能受到原始數據源的偏差影響，以及大語言模型和商業API的偏差影響。我們強烈建議用戶在應用於下游任務之前，評估模型的安全性和公平性。

倫理考量

此版本僅用於支持學術論文的研究目的。我們的模型、數據集和代碼並非專門為所有下游用途而設計或評估。我們強烈建議用戶在部署此模型之前，評估並解決與準確性、安全性和公平性相關的潛在問題。我們鼓勵用戶考慮人工智能的常見侷限性，遵守適用法律，並在選擇用例時採用最佳實踐，特別是在錯誤或濫用可能對人們的生活、權利或安全產生重大影響的高風險場景中。有關用例的更多指導，請參考我們的AUP和AI AUP。

📦 安裝指南

如果缺少任何包，請執行以下命令：

pip install torch==2.2.1 torchvision==0.17.1 torchaudio==2.2.1 --index-url https://download.pytorch.org/whl/cu121
pip install open_clip_torch==2.24.0
pip install einops
pip install einops-exts
pip install transformers==4.41.1

📄 許可證

我們的代碼和權重遵循 Apache 2.0 許可證發佈。

🔧 技術細節

引用信息

@misc{blip3-xgenmm,
  author          = {Le Xue, Manli Shu, Anas Awadalla, Jun Wang, An Yan, Senthil Purushwalkam, Honglu Zhou, Viraj Prabhu, Yutong Dai, Michael S Ryoo, Shrikant Kendre, Jieyu Zhang, Can Qin, Shu Zhang, Chia-Chih Chen, Ning Yu, Juntao Tan, Tulika Manoj Awalgaonkar, Shelby Heinecke, Huan Wang, Yejin Choi, Ludwig Schmidt, Zeyuan Chen, Silvio Savarese, Juan Carlos Niebles, Caiming Xiong, Ran Xu},
  title           = {xGen-MM (BLIP-3): A Family of Open Large Multimodal Models},
  year            = {2024},
  eprint          = {2408.08872},
  archivePrefix   = {arXiv},
  primaryClass    = {cs.CV},
  url             = {https://arxiv.org/abs/2408.08872}, 
}