🚀 xGen-MM 大語言模型
xGen-MM
是由 Salesforce AI Research 開發的一系列最新基礎大語言模型(LMMs)。該系列在 BLIP
系列的成功設計基礎上進行了改進,融入了一些基礎增強功能,確保了更強大、更卓越的基礎能力。這些模型在高質量圖像字幕數據集和交錯圖像文本數據上進行了大規模訓練。
🚀 快速開始
在 2024 年 8 月發佈的 v1.5 版本中,我們推出了一系列 XGen-MM 模型,包括:
更多詳細信息,請查看我們的 技術報告、微調代碼 和項目頁面(即將推出)。
✨ 主要特性
模型性能表現
基礎模型少樣本評估(無指令微調)
模型 |
樣本數 |
VQAv2 |
TextVQA |
OKVQA |
COCO |
NoCaps |
TextCaps |
Flamingo-3B |
0 |
49.2 |
30.1 |
41.2 |
73.0 |
- |
- |
|
4 |
53.2 |
32.7 |
43.3 |
85.0 |
- |
- |
|
8 |
55.4 |
32.4 |
44.6 |
90.6 |
- |
- |
MM1-3B |
0 |
46.2 |
29.4 |
26.1 |
73.5 |
55.6 |
63.3 |
|
4 |
57.9 |
45.3 |
44.6 |
112.3 |
99.7 |
84.1 |
|
8 |
63.6 |
44.6 |
48.4 |
114.6 |
104.7 |
88.8 |
xGen-MM-base |
0 |
43.1 |
34.0 |
28.0 |
67.2 |
82.6 |
69.5 |
|
4 |
66.3 |
54.2 |
48.9 |
107.6 |
100.8 |
89.9 |
|
8 |
66.9 |
55.3 |
50.1 |
109.8 |
104.6 |
94.0 |
上下文學習展示
以下是我們基礎模型多模態上下文學習能力的一些定性示例。



📦 安裝指南
如果你缺少任何依賴包,請執行以下命令:
pip install torch==2.2.1 torchvision==0.17.1 torchaudio==2.2.1 --index-url https://download.pytorch.org/whl/cu121
pip install open_clip_torch==2.24.0
pip install einops
pip install einops-exts
pip install transformers==4.41.1
💻 使用示例
請查看我們的 推理筆記本 以獲取使用我們模型的示例代碼。
🔧 技術細節
可復現性
預訓練評估是基於 OpenFlamingo:一個用於訓練大型多模態模型的開源框架 實現的。少樣本示例是隨機抽取的,因此不同的隨機種子可能會導致一些差異。
偏差、風險、侷限性和倫理考量
主要數據來源來自互聯網,包括網頁、圖像素材網站和研究社區發佈的精選數據集。由於已知的 CSAM 問題,我們排除了某些數據,如 LAION。模型可能會受到原始數據源的偏差影響,以及大語言模型和商業 API 的偏差影響。我們強烈建議用戶在應用於下游任務之前評估安全性和公平性。
倫理考量
本版本僅用於支持學術論文的研究目的。我們的模型、數據集和代碼並非專門為所有下游用途而設計或評估。我們強烈建議用戶在部署此模型之前評估並解決與準確性、安全性和公平性相關的潛在問題。我們鼓勵用戶考慮人工智能的常見侷限性,遵守適用法律,並在選擇用例時採用最佳實踐,特別是在錯誤或濫用可能會對人們的生活、權利或安全產生重大影響的高風險場景中。有關用例的更多指導,請參考我們的 AUP 和 AI AUP。
📄 許可證
我們的代碼和權重遵循 Apache 2.0 許可證發佈。
📚 詳細文檔
代碼致謝
我們的訓練代碼基於 OpenFlamingo:一個用於訓練大型多模態模型的開源框架,部分數據預處理代碼改編自 LLaVA。我們的評估代碼基於 VLMEvalKit:大型視覺語言模型(LVLMs)的開源評估工具包。我們感謝這些作者的開源實現。
引用信息
@misc{blip3-xgenmm,
author = {Le Xue, Manli Shu, Anas Awadalla, Jun Wang, An Yan, Senthil Purushwalkam, Honglu Zhou, Viraj Prabhu, Yutong Dai, Michael S Ryoo, Shrikant Kendre, Jieyu Zhang, Can Qin, Shu Zhang, Chia-Chih Chen, Ning Yu, Juntao Tan, Tulika Manoj Awalgaonkar, Shelby Heinecke, Huan Wang, Yejin Choi, Ludwig Schmidt, Zeyuan Chen, Silvio Savarese, Juan Carlos Niebles, Caiming Xiong, Ran Xu},
title = {xGen-MM (BLIP-3): A Family of Open Large Multimodal Models},
year = {2024},
eprint = {2408.08872},
archivePrefix = {arXiv},
primaryClass = {cs.CV},
url = {https://arxiv.org/abs/2408.08872},
}