xgen-mm-phi3-mini-base-r-v1.5オープンソース大規模言語モデル - 強化機能により、より強力な基礎アプリケーションを実現

ホーム

Xgen Mm Phi3 Mini Base R V1.5

Salesforceによって開発

xGen-MMはSalesforce AI Researchによって開発された一連の最新の基礎大規模言語モデル(LMMs)で、BLIPシリーズをベースに改良され、強化機能が組み込まれ、より強力な基礎能力を持っています。

テキスト生成画像

Safetensors

英語オープンソースライセンス:Apache-2.0 #マルチモーダル指令微調整 #交錯画像テキスト理解 #少サンプルコンテキスト学習

ダウンロード数 830

リリース時間 : 8/12/2024

モデル概要

xGen-MMシリーズのモデルは、高品質の画像キャプションデータセットと交錯画像テキストデータで大規模に訓練され、マルチモーダルタスクの処理をサポートしています。

モデル特徴

マルチモーダルコンテキスト学習

強力なマルチモーダルコンテキスト学習能力を備え、画像とテキストの複雑な相互作用を処理できます。

高性能ベンチマークテスト

VQAv2、TextVQA、OKVQAなどの複数のベンチマークテストで優れた性能を発揮します。

交錯画像テキスト処理

専用に最適化された交錯画像テキスト処理能力で、複雑なマルチモーダルシーンに適しています。

モデル能力

画像理解

テキスト生成

マルチモーダル質問応答

画像キャプション生成

コンテキスト学習

使用事例

ビジュアル質問応答

画像内容に関する質問応答

画像内容に基づいて関連する質問に回答します。

VQAv2ベンチマークテストで66.9点を獲得しました。

画像キャプション生成

自動画像説明

画像に対して正確な説明を生成します。

COCOベンチマークテストで109.8点を獲得しました。

マルチモーダルインタラクション

複雑なシーン理解

複数の画像とテキストを含む複雑なシーンを処理します。

交錯画像テキストタスクで優れた性能を発揮します。

🚀 xGen-MM 大規模言語モデル

xGen-MM は、Salesforce AI Research によって開発された一連の最新の基礎大規模言語モデル（LMMs）です。このシリーズは BLIP シリーズの成功した設計を基に改良され、いくつかの基礎強化機能が組み込まれており、より強力で卓越した基礎能力を備えています。これらのモデルは、高品質な画像キャプションデータセットと交差画像テキストデータで大規模に訓練されています。

🚀 クイックスタート

2024年8月にリリースされたv1.5バージョンでは、一連のXGen-MMモデルを発表しました。以下にそれらを紹介します。

🤖 xGen-MM-instruct-interleave（メインの命令モデル）：xgen-mm-phi3-mini-instruct-interleave-r-v1.5
- このモデルは、単一画像および複数画像のベンチマークテストで、総合得点が xGen-MM-instruct よりも高いです。
🤖 xGen-MM-base：xgen-mm-phi3-mini-base-r-v1.5
🤖 xGen-MM-instruct：xgen-mm-phi3-mini-instruct-singleimg-r-v1.5
🤖 xGen-MM-instruct-dpo：xgen-mm-phi3-mini-instruct-dpo-r-v1.5

詳細情報については、技術レポート、微調整コードおよびプロジェクトページ（近日公開予定）をご覧ください。

✨ 主な機能

モデルの性能

基礎モデルの少サンプル評価（命令微調整なし）

モデル	サンプル数	VQAv2	TextVQA	OKVQA	COCO	NoCaps	TextCaps
Flamingo-3B	0	49.2	30.1	41.2	73.0	-	-
	4	53.2	32.7	43.3	85.0	-	-
	8	55.4	32.4	44.6	90.6	-	-
MM1-3B	0	46.2	29.4	26.1	73.5	55.6	63.3
	4	57.9	45.3	44.6	112.3	99.7	84.1
	8	63.6	44.6	48.4	114.6	104.7	88.8
xGen-MM-base	0	43.1	34.0	28.0	67.2	82.6	69.5
	4	66.3	54.2	48.9	107.6	100.8	89.9
	8	66.9	55.3	50.1	109.8	104.6	94.0

コンテキスト学習のデモ

以下は、基礎モデルの多モーダルコンテキスト学習能力の定性的な例です。

アートの例

動物の例

街道の例

📦 インストール

必要な依存パッケージが不足している場合は、以下のコマンドを実行してください。

pip install torch==2.2.1 torchvision==0.17.1 torchaudio==2.2.1 --index-url https://download.pytorch.org/whl/cu121
pip install open_clip_torch==2.24.0
pip install einops
pip install einops-exts
pip install transformers==4.41.1

💻 使用例

モデルの使用例コードについては、推論ノートブックをご覧ください。

🔧 技術詳細

再現性

事前学習評価は、OpenFlamingo：大規模多モーダルモデルの訓練用オープンソースフレームワークに基づいて実装されています。少サンプルの例はランダムに抽出されるため、異なる乱数シードでは若干の差異が生じる可能性があります。

バイアス、リスク、制限事項および倫理的考慮事項

主なデータソースはインターネットで、ウェブページ、画像素材サイト、研究コミュニティが公開した選りすぐりのデータセットが含まれています。既知のCSAM問題のため、LAIONなどの一部のデータは除外されています。モデルは、元のデータソースのバイアスや、大規模言語モデルおよび商用APIのバイアスの影響を受ける可能性があります。ユーザーは、下流タスクに適用する前に、安全性と公平性を評価することを強くお勧めします。

倫理的考慮事項

このバージョンは、学術論文の研究目的のみをサポートするために提供されています。当社のモデル、データセットおよびコードは、すべての下流用途に対して特別に設計または評価されているわけではありません。ユーザーは、このモデルをデプロイする前に、精度、安全性および公平性に関連する潜在的な問題を評価し、解決することを強くお勧めします。ユーザーは、人工知能の一般的な制限事項を考慮し、適用される法律を遵守し、特に誤りや誤用が人々の生活、権利または安全に重大な影響を与える可能性のある高リスクシナリオでは、ユースケースを選択する際にベストプラクティスを採用することをお励めします。ユースケースに関する詳細なガイダンスについては、当社のAUPおよびAI AUPを参照してください。

📄 ライセンス

当社のコードと重みは、Apache 2.0 ライセンスの下で公開されています。

📚 ドキュメント

コードの謝辞

当社の訓練コードは、OpenFlamingo：大規模多モーダルモデルの訓練用オープンソースフレームワークに基づいており、一部のデータ前処理コードは LLaVA から改変されています。当社の評価コードは、VLMEvalKit：大規模視覚言語モデル（LVLMs）のオープンソース評価ツールキットに基づいています。これらの作者のオープンソース実装に感謝いたします。

引用情報

@misc{blip3-xgenmm,
  author          = {Le Xue, Manli Shu, Anas Awadalla, Jun Wang, An Yan, Senthil Purushwalkam, Honglu Zhou, Viraj Prabhu, Yutong Dai, Michael S Ryoo, Shrikant Kendre, Jieyu Zhang, Can Qin, Shu Zhang, Chia-Chih Chen, Ning Yu, Juntao Tan, Tulika Manoj Awalgaonkar, Shelby Heinecke, Huan Wang, Yejin Choi, Ludwig Schmidt, Zeyuan Chen, Silvio Savarese, Juan Carlos Niebles, Caiming Xiong, Ran Xu},
  title           = {xGen-MM (BLIP-3): A Family of Open Large Multimodal Models},
  year            = {2024},
  eprint          = {2408.08872},
  archivePrefix   = {arXiv},
  primaryClass    = {cs.CV},
  url             = {https://arxiv.org/abs/2408.08872}, 
}