🚀 xGen-MM 多模態大模型
xGen-MM
是Salesforce AI Research開發的一系列最新基礎多模態大模型(LMMs)。該系列在 BLIP
系列的成功設計基礎上進行了改進,融入了基礎增強功能,確保了更強大、更卓越的基礎。這些模型在高質量圖像字幕數據集和交錯的圖像 - 文本數據上進行了大規模訓練。
🚀 快速開始
若要使用我們的模型,請查看 推理筆記本 中的示例代碼。我們還提供了 批量推理 的示例腳本。
✨ 主要特性
- 先進架構:基於
BLIP
系列成功設計並改進,具備更強大基礎。
- 大規模訓練:在高質量圖像字幕數據集和交錯圖像 - 文本數據上進行大規模訓練。
- 多模型選擇:在v1.5(2024年8月)版本中,提供了一系列XGen-MM模型,包括
xgen-mm-phi3-mini-instruct-interleave-r-v1.5
、xgen-mm-phi3-mini-base-r-v1.5
、xgen-mm-phi3-mini-instruct-singleimg-r-v1.5
和 xgen-mm-phi3-mini-instruct-dpo-r-v1.5
。
📚 詳細文檔
模型介紹
xGen-MM
是一系列最新的基礎多模態大模型(LMMs),由Salesforce AI Research開發。該系列在 BLIP
系列的成功設計基礎上進行了改進,融入了基礎增強功能,確保了更強大、更卓越的基礎。這些模型在高質量圖像字幕數據集和交錯的圖像 - 文本數據上進行了大規模訓練。
在v1.5(2024年8月)版本中,我們推出了一系列XGen-MM模型,具體如下:
更多詳細信息,請查看我們的 技術報告、微調代碼 和項目頁面(即將推出)。
DPO模型結果
模型 |
VLGuard (↓) |
HallusionBench (↑) |
POPE (↑) |
MMBench (dev) (↑) |
SEED - IMG (↑) |
MMStar (↑) |
MME (norm) (↑) |
Phi - 3 - vision* |
9.1 |
- |
83.5 |
74.2 |
71.0 |
47.9 |
55.3 |
xgen - mm - phi3 - mini - instruct - dpo - r - v1 (我們的模型) |
5.2 |
56.6 |
86.8 |
76.4 |
72.1 |
47.1 |
64.4 |
(* = 我們的評估)
我們在下面展示了一些定性示例,這些示例體現了我們模型的安全特性,這些特性補充了模型的多模態理解能力。


可復現性
我們的評估基於 open - compass/VLMEvalKit 實現。我們將向該倉庫提交一個PR,以支持XGen-MM評估。
偏差、風險、侷限性和倫理考量
主要數據來源來自互聯網,包括網頁、圖像素材網站和研究社區發佈的精選數據集。由於已知的CSAM問題,我們排除了某些數據,如LAION。
該模型可能受到原始數據源的偏差影響,以及大語言模型和商業API的偏差影響。
我們強烈建議用戶在應用於下游任務之前,評估模型的安全性和公平性。
倫理考量
此版本僅用於支持學術論文的研究目的。我們的模型、數據集和代碼並非專門為所有下游用途而設計或評估。我們強烈建議用戶在部署此模型之前,評估並解決與準確性、安全性和公平性相關的潛在問題。我們鼓勵用戶考慮人工智能的常見侷限性,遵守適用法律,並在選擇用例時採用最佳實踐,特別是在錯誤或濫用可能對人們的生活、權利或安全產生重大影響的高風險場景中。有關用例的更多指導,請參考我們的AUP和AI AUP。
📦 安裝指南
如果缺少任何包,請執行以下命令:
pip install torch==2.2.1 torchvision==0.17.1 torchaudio==2.2.1 --index-url https://download.pytorch.org/whl/cu121
pip install open_clip_torch==2.24.0
pip install einops
pip install einops-exts
pip install transformers==4.41.1
📄 許可證
我們的代碼和權重遵循 Apache 2.0 許可證發佈。
🔧 技術細節
引用信息
@misc{blip3-xgenmm,
author = {Le Xue, Manli Shu, Anas Awadalla, Jun Wang, An Yan, Senthil Purushwalkam, Honglu Zhou, Viraj Prabhu, Yutong Dai, Michael S Ryoo, Shrikant Kendre, Jieyu Zhang, Can Qin, Shu Zhang, Chia-Chih Chen, Ning Yu, Juntao Tan, Tulika Manoj Awalgaonkar, Shelby Heinecke, Huan Wang, Yejin Choi, Ludwig Schmidt, Zeyuan Chen, Silvio Savarese, Juan Carlos Niebles, Caiming Xiong, Ran Xu},
title = {xGen-MM (BLIP-3): A Family of Open Large Multimodal Models},
year = {2024},
eprint = {2408.08872},
archivePrefix = {arXiv},
primaryClass = {cs.CV},
url = {https://arxiv.org/abs/2408.08872},
}
注意事項
⚠️ 重要提示
模型可能受到原始數據源的偏差影響,以及大語言模型和商業API的偏差影響。我們強烈建議用戶在應用於下游任務之前,評估模型的安全性和公平性。
💡 使用建議
此版本僅用於支持學術論文的研究目的。在部署此模型之前,請評估並解決與準確性、安全性和公平性相關的潛在問題。在選擇用例時,特別是在高風險場景中,請考慮人工智能的常見侷限性,遵守適用法律,並採用最佳實踐。