🚀 xGen-MM 多模态大模型
xGen-MM
是Salesforce AI Research开发的一系列最新基础多模态大模型(LMMs)。该系列在 BLIP
系列的成功设计基础上进行了改进,融入了基础增强功能,确保了更强大、更卓越的基础。这些模型在高质量图像字幕数据集和交错的图像 - 文本数据上进行了大规模训练。
🚀 快速开始
若要使用我们的模型,请查看 推理笔记本 中的示例代码。我们还提供了 批量推理 的示例脚本。
✨ 主要特性
- 先进架构:基于
BLIP
系列成功设计并改进,具备更强大基础。
- 大规模训练:在高质量图像字幕数据集和交错图像 - 文本数据上进行大规模训练。
- 多模型选择:在v1.5(2024年8月)版本中,提供了一系列XGen-MM模型,包括
xgen-mm-phi3-mini-instruct-interleave-r-v1.5
、xgen-mm-phi3-mini-base-r-v1.5
、xgen-mm-phi3-mini-instruct-singleimg-r-v1.5
和 xgen-mm-phi3-mini-instruct-dpo-r-v1.5
。
📚 详细文档
模型介绍
xGen-MM
是一系列最新的基础多模态大模型(LMMs),由Salesforce AI Research开发。该系列在 BLIP
系列的成功设计基础上进行了改进,融入了基础增强功能,确保了更强大、更卓越的基础。这些模型在高质量图像字幕数据集和交错的图像 - 文本数据上进行了大规模训练。
在v1.5(2024年8月)版本中,我们推出了一系列XGen-MM模型,具体如下:
更多详细信息,请查看我们的 技术报告、微调代码 和项目页面(即将推出)。
DPO模型结果
模型 |
VLGuard (↓) |
HallusionBench (↑) |
POPE (↑) |
MMBench (dev) (↑) |
SEED - IMG (↑) |
MMStar (↑) |
MME (norm) (↑) |
Phi - 3 - vision* |
9.1 |
- |
83.5 |
74.2 |
71.0 |
47.9 |
55.3 |
xgen - mm - phi3 - mini - instruct - dpo - r - v1 (我们的模型) |
5.2 |
56.6 |
86.8 |
76.4 |
72.1 |
47.1 |
64.4 |
(* = 我们的评估)
我们在下面展示了一些定性示例,这些示例体现了我们模型的安全特性,这些特性补充了模型的多模态理解能力。


可复现性
我们的评估基于 open - compass/VLMEvalKit 实现。我们将向该仓库提交一个PR,以支持XGen-MM评估。
偏差、风险、局限性和伦理考量
主要数据来源来自互联网,包括网页、图像素材网站和研究社区发布的精选数据集。由于已知的CSAM问题,我们排除了某些数据,如LAION。
该模型可能受到原始数据源的偏差影响,以及大语言模型和商业API的偏差影响。
我们强烈建议用户在应用于下游任务之前,评估模型的安全性和公平性。
伦理考量
此版本仅用于支持学术论文的研究目的。我们的模型、数据集和代码并非专门为所有下游用途而设计或评估。我们强烈建议用户在部署此模型之前,评估并解决与准确性、安全性和公平性相关的潜在问题。我们鼓励用户考虑人工智能的常见局限性,遵守适用法律,并在选择用例时采用最佳实践,特别是在错误或滥用可能对人们的生活、权利或安全产生重大影响的高风险场景中。有关用例的更多指导,请参考我们的AUP和AI AUP。
📦 安装指南
如果缺少任何包,请执行以下命令:
pip install torch==2.2.1 torchvision==0.17.1 torchaudio==2.2.1 --index-url https://download.pytorch.org/whl/cu121
pip install open_clip_torch==2.24.0
pip install einops
pip install einops-exts
pip install transformers==4.41.1
📄 许可证
我们的代码和权重遵循 Apache 2.0 许可证发布。
🔧 技术细节
引用信息
@misc{blip3-xgenmm,
author = {Le Xue, Manli Shu, Anas Awadalla, Jun Wang, An Yan, Senthil Purushwalkam, Honglu Zhou, Viraj Prabhu, Yutong Dai, Michael S Ryoo, Shrikant Kendre, Jieyu Zhang, Can Qin, Shu Zhang, Chia-Chih Chen, Ning Yu, Juntao Tan, Tulika Manoj Awalgaonkar, Shelby Heinecke, Huan Wang, Yejin Choi, Ludwig Schmidt, Zeyuan Chen, Silvio Savarese, Juan Carlos Niebles, Caiming Xiong, Ran Xu},
title = {xGen-MM (BLIP-3): A Family of Open Large Multimodal Models},
year = {2024},
eprint = {2408.08872},
archivePrefix = {arXiv},
primaryClass = {cs.CV},
url = {https://arxiv.org/abs/2408.08872},
}
注意事项
⚠️ 重要提示
模型可能受到原始数据源的偏差影响,以及大语言模型和商业API的偏差影响。我们强烈建议用户在应用于下游任务之前,评估模型的安全性和公平性。
💡 使用建议
此版本仅用于支持学术论文的研究目的。在部署此模型之前,请评估并解决与准确性、安全性和公平性相关的潜在问题。在选择用例时,特别是在高风险场景中,请考虑人工智能的常见局限性,遵守适用法律,并采用最佳实践。