xgen-mm-phi3-mini-instruct-dpo-r-v1.5オープンソース多モーダルモデル

ホーム

Xgen Mm Phi3 Mini Instruct Dpo R V1.5

Salesforceによって開発

xGen-MMはSalesforce AI Researchが開発したマルチモーダル基礎モデルシリーズで、BLIPシリーズを改良し、高品質な画像キャプションとインターレース画像テキストデータでトレーニングされています。

画像生成テキスト

Safetensors

英語オープンソースライセンス:Apache-2.0 #マルチモーダル命令ファインチューニング #セキュリティ強化 #インターレース画像テキスト理解

ダウンロード数 305

リリース時間 : 8/9/2024

モデル概要

このモデルはxGen-MMシリーズのDPO（Direct Preference Optimization）バージョンで、マルチモーダル理解能力と安全性の向上に焦点を当て、画像テキスト生成やインタラクティブタスクに適しています。

モデル特徴

マルチモーダル理解

単一画像および複数画像のベンチマークテストで優れたパフォーマンスを発揮し、複雑なマルチモーダルインタラクションタスクをサポートします。

セキュリティ最適化

DPOトレーニングにより有害コンテンツ生成確率を大幅に低減（VLGuardスコア5.2、ベンチマークモデルを上回る）。

総合性能

POPE、MMBench、SEED-IMGなどの複数のベンチマークテストで同類モデルを凌駕しています。

モデル能力

画像説明生成

複数画像推論

安全なコンテンツフィルタリング

ビジュアルQA

クロスモーダル理解

使用事例

コンテンツモデレーション

有害コンテンツ検出

画像やテキスト中の潜在的な有害コンテンツを自動識別

VLGuardスコア5.2（低いほど良い）

教育

マルチモーダル学習アシスタント

教材中の画像テキストコンテンツを解析し説明を生成

MMBench開発セットスコア76.4

🚀 xGen-MM

xGen-MMは、Salesforce AI Researchによって開発された最新の大規模マルチモーダルモデル（LMMs）のシリーズです。このシリーズは、BLIPシリーズの成功した設計を発展させ、より堅牢で優れた基盤を提供する基本的な改良を組み込んでいます。これらのモデルは、高品質の画像キャプションデータセットとインターリーブされた画像テキストデータを使用して大規模にトレーニングされています。

🚀 クイックスタート

このモデルを使用するには、推論ノートブックを参照してください。また、バッチ推論のサンプルスクリプトも提供しています。

✨ 主な機能

xGen-MMは、BLIPシリーズをベースに改良され、高品質の画像キャプションデータセットとインターリーブされた画像テキストデータを使用して大規模にトレーニングされています。
v1.5 (2024年8月) リリースでは、複数のXGen-MMモデルが提供されています。

📦 インストール

必要なパッケージが欠落している場合は、以下のコマンドを実行してください。

pip install torch==2.2.1 torchvision==0.17.1 torchaudio==2.2.1 --index-url https://download.pytorch.org/whl/cu121
pip install open_clip_torch==2.24.0
pip install einops
pip install einops-exts
pip install transformers==4.41.1

📚 ドキュメント

モデルの詳細

v1.5 (2024年8月) リリースでは、以下のXGen-MMモデルが提供されています。

🤗 xGen-MM-instruct-interleave (メインの指示付きモデル): xgen-mm-phi3-mini-instruct-interleave-r-v1.5
- このモデルは、単一画像と複数画像のベンチマークの両方で、xGen-MM-instructよりも全体的なスコアが高いです。
🤗 xGen-MM-base: xgen-mm-phi3-mini-base-r-v1.5
🤗 xGen-MM-instruct: xgen-mm-phi3-mini-instruct-singleimg-r-v1.5
🤗 xGen-MM-instruct-dpo: xgen-mm-phi3-mini-instruct-dpo-r-v1.5

詳細については、技術レポート、ファインチューニングコード、およびプロジェクトページ（近日公開）を参照してください。

評価結果

モデル	VLGuard (↓)	HallusionBench (↑)	POPE (↑)	MMBench (dev) (↑)	SEED-IMG (↑)	MMStar (↑)	MME (norm) (↑)
Phi-3-vision*	9.1	-	83.5	74.2	71.0	47.9	55.3
xgen-mm-phi3-mini-instruct-dpo-r-v1 (Ours)	5.2	56.6	86.8	76.4	72.1	47.1	64.4

(* = 当社の評価)

また、モデルのマルチモーダル理解機能を補完するセキュリティ機能の定性的な例を以下に示します。

再現性

評価は、open-compass/VLMEvalKitに基づいて実装されています。XGen-MMの評価をサポートするために、このリポジトリにPRを作成する予定です。

バイアス、リスク、制限事項、および倫理的考慮事項

主なデータソースはインターネットで、ウェブページ、画像ストックサイト、および研究コミュニティによって公開された精選されたデータセットが含まれています。既知のCSAM問題のため、LAIONなどの特定のデータは除外しています。モデルは、元のデータソースからのバイアス、ならびにLLMや商用APIからのバイアスの影響を受ける可能性があります。ユーザーは、下流のアプリケーションに適用する前に、安全性と公平性を評価することを強くお勧めします。

倫理的考慮事項

このリリースは、学術論文をサポートするための研究目的のみを対象としています。当社のモデル、データセット、およびコードは、すべての下流の目的に特に設計または評価されていません。ユーザーは、このモデルをデプロイする前に、精度、安全性、および公平性に関する潜在的な問題を評価し、対処することを強くお勧めします。ユーザーは、AIの一般的な制限事項を考慮し、適用可能な法律を遵守し、特にエラーや誤用が人々の生活、権利、または安全に重大な影響を与える可能性のある高リスクシナリオでは、ベストプラクティスを活用することをお勧めします。ユースケースに関する詳細なガイダンスについては、当社のAUPおよびAI AUPを参照してください。

📄 ライセンス

当社のコードと重みは、Apache 2.0ライセンスの下で公開されています。

🔧 技術詳細

コードの承認

トレーニングコードは、OpenFlamingo: An open - source framework for training large multimodal models.に基づいています。また、データ前処理コードの一部は、LLaVAから適応されています。評価コードは、VLMEvalKit: Open - source evaluation toolkit of large vision - language models (LVLMs)に基づいています。

これらのオープンソース実装の著者に感謝いたします。

引用

@misc{blip3-xgenmm,
  author          = {Le Xue, Manli Shu, Anas Awadalla, Jun Wang, An Yan, Senthil Purushwalkam, Honglu Zhou, Viraj Prabhu, Yutong Dai, Michael S Ryoo, Shrikant Kendre, Jieyu Zhang, Can Qin, Shu Zhang, Chia-Chih Chen, Ning Yu, Juntao Tan, Tulika Manoj Awalgaonkar, Shelby Heinecke, Huan Wang, Yejin Choi, Ludwig Schmidt, Zeyuan Chen, Silvio Savarese, Juan Carlos Niebles, Caiming Xiong, Ran Xu},
  title           = {xGen-MM (BLIP-3): A Family of Open Large Multimodal Models},
  year            = {2024},
  eprint          = {2408.08872},
  archivePrefix   = {arXiv},
  primaryClass    = {cs.CV},
  url             = {https://arxiv.org/abs/2408.08872}, 
}