🚀 xGen-MM
xGen-MM
は、Salesforce AI Researchによって開発された最新の大規模マルチモーダルモデル(LMMs)のシリーズです。このシリーズは、BLIP
シリーズの成功した設計を発展させ、より堅牢で優れた基盤を提供する基本的な改良を組み込んでいます。これらのモデルは、高品質の画像キャプションデータセットとインターリーブされた画像テキストデータを使用して大規模にトレーニングされています。
🚀 クイックスタート
このモデルを使用するには、推論ノートブックを参照してください。また、バッチ推論のサンプルスクリプトも提供しています。
✨ 主な機能
xGen-MM
は、BLIP
シリーズをベースに改良され、高品質の画像キャプションデータセットとインターリーブされた画像テキストデータを使用して大規模にトレーニングされています。
- v1.5 (2024年8月) リリースでは、複数のXGen-MMモデルが提供されています。
📦 インストール
必要なパッケージが欠落している場合は、以下のコマンドを実行してください。
pip install torch==2.2.1 torchvision==0.17.1 torchaudio==2.2.1 --index-url https://download.pytorch.org/whl/cu121
pip install open_clip_torch==2.24.0
pip install einops
pip install einops-exts
pip install transformers==4.41.1
📚 ドキュメント
モデルの詳細
v1.5 (2024年8月) リリースでは、以下のXGen-MMモデルが提供されています。
詳細については、技術レポート、ファインチューニングコード、およびプロジェクトページ(近日公開)を参照してください。
評価結果
モデル |
VLGuard (↓) |
HallusionBench (↑) |
POPE (↑) |
MMBench (dev) (↑) |
SEED-IMG (↑) |
MMStar (↑) |
MME (norm) (↑) |
Phi-3-vision* |
9.1 |
- |
83.5 |
74.2 |
71.0 |
47.9 |
55.3 |
xgen-mm-phi3-mini-instruct-dpo-r-v1 (Ours) |
5.2 |
56.6 |
86.8 |
76.4 |
72.1 |
47.1 |
64.4 |
(* = 当社の評価)
また、モデルのマルチモーダル理解機能を補完するセキュリティ機能の定性的な例を以下に示します。
再現性
評価は、open-compass/VLMEvalKitに基づいて実装されています。XGen-MMの評価をサポートするために、このリポジトリにPRを作成する予定です。
バイアス、リスク、制限事項、および倫理的考慮事項
主なデータソースはインターネットで、ウェブページ、画像ストックサイト、および研究コミュニティによって公開された精選されたデータセットが含まれています。既知のCSAM問題のため、LAIONなどの特定のデータは除外しています。
モデルは、元のデータソースからのバイアス、ならびにLLMや商用APIからのバイアスの影響を受ける可能性があります。
ユーザーは、下流のアプリケーションに適用する前に、安全性と公平性を評価することを強くお勧めします。
倫理的考慮事項
このリリースは、学術論文をサポートするための研究目的のみを対象としています。当社のモデル、データセット、およびコードは、すべての下流の目的に特に設計または評価されていません。ユーザーは、このモデルをデプロイする前に、精度、安全性、および公平性に関する潜在的な問題を評価し、対処することを強くお勧めします。ユーザーは、AIの一般的な制限事項を考慮し、適用可能な法律を遵守し、特にエラーや誤用が人々の生活、権利、または安全に重大な影響を与える可能性のある高リスクシナリオでは、ベストプラクティスを活用することをお勧めします。ユースケースに関する詳細なガイダンスについては、当社のAUPおよびAI AUPを参照してください。
📄 ライセンス
当社のコードと重みは、Apache 2.0ライセンスの下で公開されています。
🔧 技術詳細
コードの承認
トレーニングコードは、OpenFlamingo: An open - source framework for training large multimodal models.に基づいています。また、データ前処理コードの一部は、LLaVAから適応されています。
評価コードは、VLMEvalKit: Open - source evaluation toolkit of large vision - language models (LVLMs)に基づいています。
これらのオープンソース実装の著者に感謝いたします。
引用
@misc{blip3-xgenmm,
author = {Le Xue, Manli Shu, Anas Awadalla, Jun Wang, An Yan, Senthil Purushwalkam, Honglu Zhou, Viraj Prabhu, Yutong Dai, Michael S Ryoo, Shrikant Kendre, Jieyu Zhang, Can Qin, Shu Zhang, Chia-Chih Chen, Ning Yu, Juntao Tan, Tulika Manoj Awalgaonkar, Shelby Heinecke, Huan Wang, Yejin Choi, Ludwig Schmidt, Zeyuan Chen, Silvio Savarese, Juan Carlos Niebles, Caiming Xiong, Ran Xu},
title = {xGen-MM (BLIP-3): A Family of Open Large Multimodal Models},
year = {2024},
eprint = {2408.08872},
archivePrefix = {arXiv},
primaryClass = {cs.CV},
url = {https://arxiv.org/abs/2408.08872},
}