🚀 xGen-MM - 最新大型多模态基础模型
xGen-MM
是Salesforce AI Research开发的一系列最新大型多模态基础模型(LMMs)。该系列在 BLIP
系列成功设计的基础上进行了改进,融入了基础增强功能,确保了更强大、更卓越的基础。这些模型在高质量图像字幕数据集和交错的图像 - 文本数据上进行了大规模训练。
🚀 快速开始
若要使用我们的模型,请查看 推理笔记本 中的示例代码。我们还提供了 批量推理 的示例脚本。
✨ 主要特性
先进架构 :基于 BLIP
系列的成功设计进行改进,具有更强大的基础。
大规模训练 :在高质量图像字幕数据集和交错的图像 - 文本数据上进行大规模训练。
多模型选择 :在v1.5 (2024年8月) 版本中,提供了一系列 xGen-MM
模型,包括 xGen-MM-instruct-interleave
、xGen-MM-base
、xGen-MM-instruct
和 xGen-MM-instruct-dpo
。
📚 详细文档
模型描述
xGen-MM
是一系列最新的大型多模态基础模型,由Salesforce AI Research开发。该系列在 BLIP
系列的基础上进行了改进,融入了基础增强功能。模型在高质量图像字幕数据集和交错的图像 - 文本数据上进行了大规模训练。
在v1.5 (2024年8月) 版本中,推出了以下一系列 XGen-MM
模型:
更多详细信息,请查看 技术报告 、微调代码 和 项目页面 。
结果
单图像基准测试
模型 (大小)
SEED - IMG
SEED v2
MMB (dev)
MM Star
MME (norm)
CVB - 2D
CVB - 3D
RealW QA
MMMU (val)
Math Vista
Sci QA
POPE
Text VQA
Avg. all
Avg. perc.
闭源模型
GPT - 4V*
72.0
-
80.8
49.7
63.3
64.3
73.8
56.5
53.8
48.2
82.1
75.4
-
-
-
MM1 - 3B - Chat (3B)
68.8
-
67.8
-
62.9
-
-
-
33.9
-
-
87.4
-
-
-
开源模型
HPT - 1.5 - edge (4B)
72.3
-
74.6
45.8
-
-
-
-
42.6
45.1
85.4
91.0
-
-
-
VILA - 1.5 - 3B (3B)
67.9
-
63.4
-
-
-
-
-
33.3
-
69.0
85.9
-
-
-
VILA - 1.5 - 3B** (3B)
67.9
51.9
62.4
40.3
58.5
50.1
60.3
53.3
34.1
30.6
68.9
86.9
58.1
55.6
59.1
phi - 3 - vision (4B)
-
-
80.5
-
-
-
-
-
-
44.5
90.8
85.8
70.9
-
-
phi - 3 - vision** (4B)
71.0
52.7
74.2
47.9
55.3
60.7
68.2
59.1
46.1
45.1
90.2
83.5
73.3
63.6
63.6
xGen - MM - inst. (4B)
71.8
53.9
76
46.7
63.8
66.2
75.4
61.6
42.8
39.2
85.6
87.0
72.0
64.8
66.9
xGen - MM - inst. - interleave (4B)
72.2
55.5
76.8
48.1
64.4
69.3
72.3
60.5
41.1
39.6
88.3
87.0
71.0
65.1
67.3
* GPT - 4V(gpt - 4 - 1106 - preview) 的结果取自第三方 排行榜 。
** 模型结果使用我们的评估代码进行测试,以进行公平比较。
多图像基准测试
模型
BLINK
QBench - 2
Mantis - eval
GPT - 4V †
51.1
73.4
62.7
VILA - 1.5 - 3B†† (3B)
39.8
51.7
41.9
xGen - MM - inst. (4B)
46.6
52.4
42.4
xGen - MM - inst. - interleave (4B)
49.7
75.1
56.7
† GPT - 4V的结果是每个基准测试原始论文中报告的数值。
†† 模型结果使用我们的评估代码进行测试,以进行公平比较。
示例
可复现性
评估基于 open - compass/VLMEvalKit 实现。我们将向该仓库提交一个PR以支持 XGen-MM
评估。
偏差、风险、局限性和伦理考量
主要数据来源是互联网,包括网页、图像素材网站和研究社区发布的精选数据集。由于已知的CSAM问题,已排除了某些数据,如LAION。
模型可能受到原始数据源的偏差以及大语言模型和商业API的偏差影响。
强烈建议用户在应用于下游任务之前评估安全性和公平性。
代码致谢
训练代码基于 OpenFlamingo: An open - source framework for training large multimodal models. ,部分数据预处理代码改编自 [LLaVA](https://github.com/haotian - liu/LLaVA)。
指令模型的评估代码基于 [VLMEvalKit: Open - source evaluation toolkit of large vision - language models (LVLMs)](https://github.com/open - compass/VLMEvalKit)。
感谢作者们的开源实现。
引用
@misc{blip3-xgenmm,
author = {Le Xue, Manli Shu, Anas Awadalla, Jun Wang, An Yan, Senthil Purushwalkam, Honglu Zhou, Viraj Prabhu, Yutong Dai, Michael S Ryoo, Shrikant Kendre, Jieyu Zhang, Can Qin, Shu Zhang, Chia - Chih Chen, Ning Yu, Juntao Tan, Tulika Manoj Awalgaonkar, Shelby Heinecke, Huan Wang, Yejin Choi, Ludwig Schmidt, Zeyuan Chen, Silvio Savarese, Juan Carlos Niebles, Caiming Xiong, Ran Xu},
title = {xGen - MM (BLIP - 3): A Family of Open Large Multimodal Models},
year = {2024},
eprint = {2408.08872},
archivePrefix = {arXiv},
primaryClass = {cs.CV},
url = {https://arxiv.org/abs/2408.08872},
}
故障排除
如果缺少任何包,请考虑以下操作:
pip install torch==2.2.1 torchvision==0.17.1 torchaudio==2.2.1 --index-url https://download.pytorch.org/whl/cu121
pip install open_clip_torch==2.24.0
pip install einops
pip install einops-exts
pip install transformers==4.41.1
伦理考量
本次发布仅用于支持学术论文的研究目的。模型、数据集和代码并非专门为所有下游目的设计或评估。强烈建议用户在部署该模型之前评估并解决与准确性、安全性和公平性相关的潜在问题。鼓励用户考虑人工智能的常见局限性,遵守适用法律,并在选择用例时采用最佳实践,特别是在错误或滥用可能对人们的生活、权利或安全产生重大影响的高风险场景中。有关用例的进一步指导,请参考使用协议和人工智能使用协议。
📄 许可证
代码和权重根据 [Apache 2.0](https://www.apache.org/licenses/LICENSE - 2.0.txt) 许可证发布。