🚀 xGen-MM 大規模言語モデル
xGen-MM
は、Salesforce AI Research によって開発された一連の最新の基礎大規模言語モデル(LMMs)です。このシリーズは BLIP
シリーズの成功した設計を基に改良され、いくつかの基礎強化機能が組み込まれており、より強力で卓越した基礎能力を備えています。これらのモデルは、高品質な画像キャプションデータセットと交差画像テキストデータで大規模に訓練されています。
🚀 クイックスタート
2024年8月にリリースされたv1.5バージョンでは、一連のXGen-MMモデルを発表しました。以下にそれらを紹介します。
詳細情報については、技術レポート、微調整コード およびプロジェクトページ(近日公開予定)をご覧ください。
✨ 主な機能
モデルの性能
基礎モデルの少サンプル評価(命令微調整なし)
モデル |
サンプル数 |
VQAv2 |
TextVQA |
OKVQA |
COCO |
NoCaps |
TextCaps |
Flamingo-3B |
0 |
49.2 |
30.1 |
41.2 |
73.0 |
- |
- |
|
4 |
53.2 |
32.7 |
43.3 |
85.0 |
- |
- |
|
8 |
55.4 |
32.4 |
44.6 |
90.6 |
- |
- |
MM1-3B |
0 |
46.2 |
29.4 |
26.1 |
73.5 |
55.6 |
63.3 |
|
4 |
57.9 |
45.3 |
44.6 |
112.3 |
99.7 |
84.1 |
|
8 |
63.6 |
44.6 |
48.4 |
114.6 |
104.7 |
88.8 |
xGen-MM-base |
0 |
43.1 |
34.0 |
28.0 |
67.2 |
82.6 |
69.5 |
|
4 |
66.3 |
54.2 |
48.9 |
107.6 |
100.8 |
89.9 |
|
8 |
66.9 |
55.3 |
50.1 |
109.8 |
104.6 |
94.0 |
コンテキスト学習のデモ
以下は、基礎モデルの多モーダルコンテキスト学習能力の定性的な例です。



📦 インストール
必要な依存パッケージが不足している場合は、以下のコマンドを実行してください。
pip install torch==2.2.1 torchvision==0.17.1 torchaudio==2.2.1 --index-url https://download.pytorch.org/whl/cu121
pip install open_clip_torch==2.24.0
pip install einops
pip install einops-exts
pip install transformers==4.41.1
💻 使用例
モデルの使用例コードについては、推論ノートブック をご覧ください。
🔧 技術詳細
再現性
事前学習評価は、OpenFlamingo:大規模多モーダルモデルの訓練用オープンソースフレームワーク に基づいて実装されています。少サンプルの例はランダムに抽出されるため、異なる乱数シードでは若干の差異が生じる可能性があります。
バイアス、リスク、制限事項および倫理的考慮事項
主なデータソースはインターネットで、ウェブページ、画像素材サイト、研究コミュニティが公開した選りすぐりのデータセットが含まれています。既知のCSAM問題のため、LAIONなどの一部のデータは除外されています。モデルは、元のデータソースのバイアスや、大規模言語モデルおよび商用APIのバイアスの影響を受ける可能性があります。ユーザーは、下流タスクに適用する前に、安全性と公平性を評価することを強くお勧めします。
倫理的考慮事項
このバージョンは、学術論文の研究目的のみをサポートするために提供されています。当社のモデル、データセットおよびコードは、すべての下流用途に対して特別に設計または評価されているわけではありません。ユーザーは、このモデルをデプロイする前に、精度、安全性および公平性に関連する潜在的な問題を評価し、解決することを強くお勧めします。ユーザーは、人工知能の一般的な制限事項を考慮し、適用される法律を遵守し、特に誤りや誤用が人々の生活、権利または安全に重大な影響を与える可能性のある高リスクシナリオでは、ユースケースを選択する際にベストプラクティスを採用することをお励めします。ユースケースに関する詳細なガイダンスについては、当社のAUPおよびAI AUPを参照してください。
📄 ライセンス
当社のコードと重みは、Apache 2.0 ライセンスの下で公開されています。
📚 ドキュメント
コードの謝辞
当社の訓練コードは、OpenFlamingo:大規模多モーダルモデルの訓練用オープンソースフレームワーク に基づいており、一部のデータ前処理コードは LLaVA から改変されています。当社の評価コードは、VLMEvalKit:大規模視覚言語モデル(LVLMs)のオープンソース評価ツールキット に基づいています。これらの作者のオープンソース実装に感謝いたします。
引用情報
@misc{blip3-xgenmm,
author = {Le Xue, Manli Shu, Anas Awadalla, Jun Wang, An Yan, Senthil Purushwalkam, Honglu Zhou, Viraj Prabhu, Yutong Dai, Michael S Ryoo, Shrikant Kendre, Jieyu Zhang, Can Qin, Shu Zhang, Chia-Chih Chen, Ning Yu, Juntao Tan, Tulika Manoj Awalgaonkar, Shelby Heinecke, Huan Wang, Yejin Choi, Ludwig Schmidt, Zeyuan Chen, Silvio Savarese, Juan Carlos Niebles, Caiming Xiong, Ran Xu},
title = {xGen-MM (BLIP-3): A Family of Open Large Multimodal Models},
year = {2024},
eprint = {2408.08872},
archivePrefix = {arXiv},
primaryClass = {cs.CV},
url = {https://arxiv.org/abs/2408.08872},
}