xgen-mm-phi3-mini-base-r-v1.5开源大语言模型 - 增强功能实现更强大基础应用

首页

Xgen Mm Phi3 Mini Base R V1.5

由 Salesforce 开发

xGen-MM是由Salesforce AI Research开发的一系列最新基础大语言模型(LMMs)，在BLIP系列基础上改进，融入增强功能，具有更强大的基础能力。

文本生成图像

Safetensors

英语开源协议:Apache-2.0 #多模态指令微调 #交错图像文本理解 #少样本上下文学习

下载量 830

发布时间 : 8/12/2024

模型简介

xGen-MM系列模型在高质量图像字幕数据集和交错图像文本数据上进行了大规模训练，支持多模态任务处理。

模型特点

多模态上下文学习

具备强大的多模态上下文学习能力，可处理图像和文本的复杂交互

高性能基准测试

在VQAv2、TextVQA、OKVQA等多个基准测试中表现优异

交错图像文本处理

专门优化的交错图像文本处理能力，适合复杂多模态场景

模型能力

图像理解

文本生成

多模态问答

图像字幕生成

上下文学习

使用案例

视觉问答

图像内容问答

根据图像内容回答相关问题

在VQAv2基准测试中达到66.9分

图像字幕生成

自动图像描述

为图像生成准确描述

在COCO基准测试中达到109.8分

多模态交互

复杂场景理解

处理包含多个图像和文本的复杂场景

在交错图像文本任务中表现优异

🚀 xGen-MM 大语言模型

xGen-MM 是由 Salesforce AI Research 开发的一系列最新基础大语言模型（LMMs）。该系列在 BLIP 系列的成功设计基础上进行了改进，融入了一些基础增强功能，确保了更强大、更卓越的基础能力。这些模型在高质量图像字幕数据集和交错图像文本数据上进行了大规模训练。

🚀 快速开始

在 2024 年 8 月发布的 v1.5 版本中，我们推出了一系列 XGen-MM 模型，包括：

🤖 xGen-MM-instruct-interleave（我们的主要指令模型）：xgen-mm-phi3-mini-instruct-interleave-r-v1.5
- 该模型在单图像和多图像基准测试中，总体得分均高于 xGen-MM-instruct。
🤖 xGen-MM-base：xgen-mm-phi3-mini-base-r-v1.5
🤖 xGen-MM-instruct：xgen-mm-phi3-mini-instruct-singleimg-r-v1.5
🤖 xGen-MM-instruct-dpo：xgen-mm-phi3-mini-instruct-dpo-r-v1.5

更多详细信息，请查看我们的技术报告、微调代码和项目页面（即将推出）。

✨ 主要特性

模型性能表现

基础模型少样本评估（无指令微调）

模型	样本数	VQAv2	TextVQA	OKVQA	COCO	NoCaps	TextCaps
Flamingo-3B	0	49.2	30.1	41.2	73.0	-	-
	4	53.2	32.7	43.3	85.0	-	-
	8	55.4	32.4	44.6	90.6	-	-
MM1-3B	0	46.2	29.4	26.1	73.5	55.6	63.3
	4	57.9	45.3	44.6	112.3	99.7	84.1
	8	63.6	44.6	48.4	114.6	104.7	88.8
xGen-MM-base	0	43.1	34.0	28.0	67.2	82.6	69.5
	4	66.3	54.2	48.9	107.6	100.8	89.9
	8	66.9	55.3	50.1	109.8	104.6	94.0

上下文学习展示

以下是我们基础模型多模态上下文学习能力的一些定性示例。

艺术示例

动物示例

街道示例

📦 安装指南

如果你缺少任何依赖包，请执行以下命令：

pip install torch==2.2.1 torchvision==0.17.1 torchaudio==2.2.1 --index-url https://download.pytorch.org/whl/cu121
pip install open_clip_torch==2.24.0
pip install einops
pip install einops-exts
pip install transformers==4.41.1

💻 使用示例

请查看我们的推理笔记本以获取使用我们模型的示例代码。

🔧 技术细节

可复现性

预训练评估是基于 OpenFlamingo：一个用于训练大型多模态模型的开源框架实现的。少样本示例是随机抽取的，因此不同的随机种子可能会导致一些差异。

偏差、风险、局限性和伦理考量

主要数据来源来自互联网，包括网页、图像素材网站和研究社区发布的精选数据集。由于已知的 CSAM 问题，我们排除了某些数据，如 LAION。模型可能会受到原始数据源的偏差影响，以及大语言模型和商业 API 的偏差影响。我们强烈建议用户在应用于下游任务之前评估安全性和公平性。

伦理考量

本版本仅用于支持学术论文的研究目的。我们的模型、数据集和代码并非专门为所有下游用途而设计或评估。我们强烈建议用户在部署此模型之前评估并解决与准确性、安全性和公平性相关的潜在问题。我们鼓励用户考虑人工智能的常见局限性，遵守适用法律，并在选择用例时采用最佳实践，特别是在错误或滥用可能会对人们的生活、权利或安全产生重大影响的高风险场景中。有关用例的更多指导，请参考我们的 AUP 和 AI AUP。

📄 许可证

我们的代码和权重遵循 Apache 2.0 许可证发布。

📚 详细文档

代码致谢

我们的训练代码基于 OpenFlamingo：一个用于训练大型多模态模型的开源框架，部分数据预处理代码改编自 LLaVA。我们的评估代码基于 VLMEvalKit：大型视觉语言模型（LVLMs）的开源评估工具包。我们感谢这些作者的开源实现。

引用信息

@misc{blip3-xgenmm,
  author          = {Le Xue, Manli Shu, Anas Awadalla, Jun Wang, An Yan, Senthil Purushwalkam, Honglu Zhou, Viraj Prabhu, Yutong Dai, Michael S Ryoo, Shrikant Kendre, Jieyu Zhang, Can Qin, Shu Zhang, Chia-Chih Chen, Ning Yu, Juntao Tan, Tulika Manoj Awalgaonkar, Shelby Heinecke, Huan Wang, Yejin Choi, Ludwig Schmidt, Zeyuan Chen, Silvio Savarese, Juan Carlos Niebles, Caiming Xiong, Ran Xu},
  title           = {xGen-MM (BLIP-3): A Family of Open Large Multimodal Models},
  year            = {2024},
  eprint          = {2408.08872},
  archivePrefix   = {arXiv},
  primaryClass    = {cs.CV},
  url             = {https://arxiv.org/abs/2408.08872}, 
}