xgen-mm-phi3-mini-base-r-v1.5開源大語言模型 - 增強功能實現更強大基礎應用

首頁

Xgen Mm Phi3 Mini Base R V1.5

由Salesforce開發

xGen-MM是由Salesforce AI Research開發的一系列最新基礎大語言模型(LMMs)，在BLIP系列基礎上改進，融入增強功能，具有更強大的基礎能力。

文本生成圖像

Safetensors

英語開源協議:Apache-2.0 #多模態指令微調 #交錯圖像文本理解 #少樣本上下文學習

下載量 830

發布時間 : 8/12/2024

模型概述

xGen-MM系列模型在高質量圖像字幕數據集和交錯圖像文本數據上進行了大規模訓練，支持多模態任務處理。

模型特點

多模態上下文學習

具備強大的多模態上下文學習能力，可處理圖像和文本的複雜交互

高性能基準測試

在VQAv2、TextVQA、OKVQA等多個基準測試中表現優異

交錯圖像文本處理

專門優化的交錯圖像文本處理能力，適合複雜多模態場景

模型能力

圖像理解

文本生成

多模態問答

圖像字幕生成

上下文學習

使用案例

視覺問答

圖像內容問答

根據圖像內容回答相關問題

在VQAv2基準測試中達到66.9分

圖像字幕生成

自動圖像描述

為圖像生成準確描述

在COCO基準測試中達到109.8分

多模態交互

複雜場景理解

處理包含多個圖像和文本的複雜場景

在交錯圖像文本任務中表現優異

🚀 xGen-MM 大語言模型

xGen-MM 是由 Salesforce AI Research 開發的一系列最新基礎大語言模型（LMMs）。該系列在 BLIP 系列的成功設計基礎上進行了改進，融入了一些基礎增強功能，確保了更強大、更卓越的基礎能力。這些模型在高質量圖像字幕數據集和交錯圖像文本數據上進行了大規模訓練。

🚀 快速開始

在 2024 年 8 月發佈的 v1.5 版本中，我們推出了一系列 XGen-MM 模型，包括：

🤖 xGen-MM-instruct-interleave（我們的主要指令模型）：xgen-mm-phi3-mini-instruct-interleave-r-v1.5
- 該模型在單圖像和多圖像基準測試中，總體得分均高於 xGen-MM-instruct。
🤖 xGen-MM-base：xgen-mm-phi3-mini-base-r-v1.5
🤖 xGen-MM-instruct：xgen-mm-phi3-mini-instruct-singleimg-r-v1.5
🤖 xGen-MM-instruct-dpo：xgen-mm-phi3-mini-instruct-dpo-r-v1.5

更多詳細信息，請查看我們的技術報告、微調代碼和項目頁面（即將推出）。

✨ 主要特性

模型性能表現

基礎模型少樣本評估（無指令微調）

模型	樣本數	VQAv2	TextVQA	OKVQA	COCO	NoCaps	TextCaps
Flamingo-3B	0	49.2	30.1	41.2	73.0	-	-
	4	53.2	32.7	43.3	85.0	-	-
	8	55.4	32.4	44.6	90.6	-	-
MM1-3B	0	46.2	29.4	26.1	73.5	55.6	63.3
	4	57.9	45.3	44.6	112.3	99.7	84.1
	8	63.6	44.6	48.4	114.6	104.7	88.8
xGen-MM-base	0	43.1	34.0	28.0	67.2	82.6	69.5
	4	66.3	54.2	48.9	107.6	100.8	89.9
	8	66.9	55.3	50.1	109.8	104.6	94.0

上下文學習展示

以下是我們基礎模型多模態上下文學習能力的一些定性示例。

藝術示例

動物示例

街道示例

📦 安裝指南

如果你缺少任何依賴包，請執行以下命令：

pip install torch==2.2.1 torchvision==0.17.1 torchaudio==2.2.1 --index-url https://download.pytorch.org/whl/cu121
pip install open_clip_torch==2.24.0
pip install einops
pip install einops-exts
pip install transformers==4.41.1

💻 使用示例

請查看我們的推理筆記本以獲取使用我們模型的示例代碼。

🔧 技術細節

可復現性

預訓練評估是基於 OpenFlamingo：一個用於訓練大型多模態模型的開源框架實現的。少樣本示例是隨機抽取的，因此不同的隨機種子可能會導致一些差異。

偏差、風險、侷限性和倫理考量

主要數據來源來自互聯網，包括網頁、圖像素材網站和研究社區發佈的精選數據集。由於已知的 CSAM 問題，我們排除了某些數據，如 LAION。模型可能會受到原始數據源的偏差影響，以及大語言模型和商業 API 的偏差影響。我們強烈建議用戶在應用於下游任務之前評估安全性和公平性。

倫理考量

本版本僅用於支持學術論文的研究目的。我們的模型、數據集和代碼並非專門為所有下游用途而設計或評估。我們強烈建議用戶在部署此模型之前評估並解決與準確性、安全性和公平性相關的潛在問題。我們鼓勵用戶考慮人工智能的常見侷限性，遵守適用法律，並在選擇用例時採用最佳實踐，特別是在錯誤或濫用可能會對人們的生活、權利或安全產生重大影響的高風險場景中。有關用例的更多指導，請參考我們的 AUP 和 AI AUP。

📄 許可證

我們的代碼和權重遵循 Apache 2.0 許可證發佈。

📚 詳細文檔

代碼致謝

我們的訓練代碼基於 OpenFlamingo：一個用於訓練大型多模態模型的開源框架，部分數據預處理代碼改編自 LLaVA。我們的評估代碼基於 VLMEvalKit：大型視覺語言模型（LVLMs）的開源評估工具包。我們感謝這些作者的開源實現。

引用信息

@misc{blip3-xgenmm,
  author          = {Le Xue, Manli Shu, Anas Awadalla, Jun Wang, An Yan, Senthil Purushwalkam, Honglu Zhou, Viraj Prabhu, Yutong Dai, Michael S Ryoo, Shrikant Kendre, Jieyu Zhang, Can Qin, Shu Zhang, Chia-Chih Chen, Ning Yu, Juntao Tan, Tulika Manoj Awalgaonkar, Shelby Heinecke, Huan Wang, Yejin Choi, Ludwig Schmidt, Zeyuan Chen, Silvio Savarese, Juan Carlos Niebles, Caiming Xiong, Ran Xu},
  title           = {xGen-MM (BLIP-3): A Family of Open Large Multimodal Models},
  year            = {2024},
  eprint          = {2408.08872},
  archivePrefix   = {arXiv},
  primaryClass    = {cs.CV},
  url             = {https://arxiv.org/abs/2408.08872}, 
}