🚀 xGen-MM 大语言模型
xGen-MM
是由 Salesforce AI Research 开发的一系列最新基础大语言模型(LMMs)。该系列在 BLIP
系列的成功设计基础上进行了改进,融入了一些基础增强功能,确保了更强大、更卓越的基础能力。这些模型在高质量图像字幕数据集和交错图像文本数据上进行了大规模训练。
🚀 快速开始
在 2024 年 8 月发布的 v1.5 版本中,我们推出了一系列 XGen-MM 模型,包括:
更多详细信息,请查看我们的 技术报告、微调代码 和项目页面(即将推出)。
✨ 主要特性
模型性能表现
基础模型少样本评估(无指令微调)
模型 |
样本数 |
VQAv2 |
TextVQA |
OKVQA |
COCO |
NoCaps |
TextCaps |
Flamingo-3B |
0 |
49.2 |
30.1 |
41.2 |
73.0 |
- |
- |
|
4 |
53.2 |
32.7 |
43.3 |
85.0 |
- |
- |
|
8 |
55.4 |
32.4 |
44.6 |
90.6 |
- |
- |
MM1-3B |
0 |
46.2 |
29.4 |
26.1 |
73.5 |
55.6 |
63.3 |
|
4 |
57.9 |
45.3 |
44.6 |
112.3 |
99.7 |
84.1 |
|
8 |
63.6 |
44.6 |
48.4 |
114.6 |
104.7 |
88.8 |
xGen-MM-base |
0 |
43.1 |
34.0 |
28.0 |
67.2 |
82.6 |
69.5 |
|
4 |
66.3 |
54.2 |
48.9 |
107.6 |
100.8 |
89.9 |
|
8 |
66.9 |
55.3 |
50.1 |
109.8 |
104.6 |
94.0 |
上下文学习展示
以下是我们基础模型多模态上下文学习能力的一些定性示例。



📦 安装指南
如果你缺少任何依赖包,请执行以下命令:
pip install torch==2.2.1 torchvision==0.17.1 torchaudio==2.2.1 --index-url https://download.pytorch.org/whl/cu121
pip install open_clip_torch==2.24.0
pip install einops
pip install einops-exts
pip install transformers==4.41.1
💻 使用示例
请查看我们的 推理笔记本 以获取使用我们模型的示例代码。
🔧 技术细节
可复现性
预训练评估是基于 OpenFlamingo:一个用于训练大型多模态模型的开源框架 实现的。少样本示例是随机抽取的,因此不同的随机种子可能会导致一些差异。
偏差、风险、局限性和伦理考量
主要数据来源来自互联网,包括网页、图像素材网站和研究社区发布的精选数据集。由于已知的 CSAM 问题,我们排除了某些数据,如 LAION。模型可能会受到原始数据源的偏差影响,以及大语言模型和商业 API 的偏差影响。我们强烈建议用户在应用于下游任务之前评估安全性和公平性。
伦理考量
本版本仅用于支持学术论文的研究目的。我们的模型、数据集和代码并非专门为所有下游用途而设计或评估。我们强烈建议用户在部署此模型之前评估并解决与准确性、安全性和公平性相关的潜在问题。我们鼓励用户考虑人工智能的常见局限性,遵守适用法律,并在选择用例时采用最佳实践,特别是在错误或滥用可能会对人们的生活、权利或安全产生重大影响的高风险场景中。有关用例的更多指导,请参考我们的 AUP 和 AI AUP。
📄 许可证
我们的代码和权重遵循 Apache 2.0 许可证发布。
📚 详细文档
代码致谢
我们的训练代码基于 OpenFlamingo:一个用于训练大型多模态模型的开源框架,部分数据预处理代码改编自 LLaVA。我们的评估代码基于 VLMEvalKit:大型视觉语言模型(LVLMs)的开源评估工具包。我们感谢这些作者的开源实现。
引用信息
@misc{blip3-xgenmm,
author = {Le Xue, Manli Shu, Anas Awadalla, Jun Wang, An Yan, Senthil Purushwalkam, Honglu Zhou, Viraj Prabhu, Yutong Dai, Michael S Ryoo, Shrikant Kendre, Jieyu Zhang, Can Qin, Shu Zhang, Chia-Chih Chen, Ning Yu, Juntao Tan, Tulika Manoj Awalgaonkar, Shelby Heinecke, Huan Wang, Yejin Choi, Ludwig Schmidt, Zeyuan Chen, Silvio Savarese, Juan Carlos Niebles, Caiming Xiong, Ran Xu},
title = {xGen-MM (BLIP-3): A Family of Open Large Multimodal Models},
year = {2024},
eprint = {2408.08872},
archivePrefix = {arXiv},
primaryClass = {cs.CV},
url = {https://arxiv.org/abs/2408.08872},
}