xGen-MM-Vidオープンソースビジュアル言語モデル - 無料でのデプロイが動画コンテンツの効率的な理解を支援

ホーム

Xgen Mm Vid Phi3 Mini R V1.5 128tokens 8frames

Salesforceによって開発

xGen-MM-Vid (BLIP-3-Video) は、動画コンテンツの理解のために設計された明示的な時間エンコーダを備えた効率的なコンパクト視覚言語モデルです。

ビデオ生成テキスト

Safetensors

英語#動画理解 #コンパクトVLM #時間エンコーダ

ダウンロード数 398

リリース時間 : 12/18/2024

モデル概要

このモデルはSalesforce AI Researchによって開発され、BLIP-3アーキテクチャを基に、学習可能な時間エンコーダモジュールを組み込み、8フレームの動画入力を処理できます。

モデル特徴

効率的な動画理解

明示的な時間エンコーダを備えており、動画コンテンツの理解のために設計されています。

コンパクトモデル

効率的なコンパクト視覚言語モデルで、リソースが限られた環境に適しています。

マルチフレーム処理能力

8フレームの動画入力を処理でき、理論的には任意のフレーム数をサポートします。

モデル能力

動画コンテンツ理解

マルチフレーム動画処理

視覚言語タスク

使用事例

動画分析

動画質問応答

MSVD-QAデータセットで動画質問応答タスクを実行。

視覚トークン数と精度のトレードオフにおいて優れた性能を発揮。

🚀 xGen-MM-Vid (BLIP-3-Video)

xGen-MM-Vid (BLIP-3-Video)は、明示的な時間エンコーダを備えた、動画を理解するために特別に設計された効率的なコンパクトなビジョン言語モデル（VLM）です。Salesforce AI Researchによって開発されています。

🚀 クイックスタート

xGen-MM-Vid (BLIP-3-Video)は、明示的な時間エンコーダを備えた、動画を理解するために特別に設計された効率的なコンパクトなビジョン言語モデル（VLM）です。元の（画像ベースの）BLIP - 3アーキテクチャ内に学習可能な時間エンコーダモジュールを組み込んでいるのが特徴です。

ここでは、8フレームの動画入力を受け取るように学習された128トークンバージョンを共有しています。原則として、任意のフレーム数を受け取ることができますが、8フレームの動画で学習されています。

同じモデルの32トークンバージョンはこちらで見つけることができます：BLIP-3-Video 32トークンモデル。

詳細については、私たちの技術レポートをチェックしてください。より詳細な説明はブログ記事にもあります。

📚 ドキュメント

トークン数と精度

上の図は、MSVD - QAデータセットにおける、xGen-MM-Vid (BLIP-3-Video)を含むさまざまな動画モデルの視覚トークン数と精度のトレードオフを示しています。

例

💻 使用例

私たちのモデルを使用する例として、推論スクリプトをチェックしてください。このコードベースは、xGen-MMに基づいています。

🔧 技術詳細

主なデータソースはインターネットからのもので、ウェブページ、動画素材サイト、および研究コミュニティによって公開された精選されたデータセットが含まれます。このモデルは、元のデータソースからのバイアス、および大規模言語モデル（LLM）や商用APIからのバイアスの影響を受ける可能性があります。下流のアプリケーションに適用する前に、ユーザーが安全性と公平性を評価することを強く推奨します。

📄 ライセンス

私たちのコードと重みは、CC by - NC 4.0ライセンスの下で公開されています。

🔗 コードの謝辞

私たちのコード/モデルは、xGen-MMをベースに構築されています。

🌐 倫理的な考慮事項

このリリースは学術論文のサポートのための研究目的のみです。私たちのモデル、データセット、およびコードは、すべての下流の目的に特に設計または評価されていません。このモデルをデプロイする前に、ユーザーが精度、安全性、および公平性に関する潜在的な懸念事項を評価し、対処することを強く推奨します。ユーザーには、AIの一般的な制限を考慮し、適用可能な法律を遵守し、ユースケースを選択する際にベストプラクティスを活用することをお勧めします。特に、エラーや誤用が人々の生活、権利、または安全に重大な影響を与える可能性のある高リスクシナリオについては、ユースケースに関するさらなるガイダンスについては、私たちのAUPおよびAI AUPを参照してください。

📖 引用

@misc{blip3video-xgenmmvid,
  author          = {Michael S. Ryoo and Honglu Zhou and Shrikant Kendre and Can Qin and Le Xue and Manli Shu and Silvio Savarese and Ran Xu and Caiming Xiong and Juan Carlos Niebles},
  title           = {xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs}, 
  year            = {2024},
  eprint          = {2410.16267},
  archivePrefix   = {arXiv},
  primaryClass    = {cs.CV},
  url             = {https://arxiv.org/abs/2410.16267}, 
}

🛠️ トラブルシューティング

パッケージが不足している場合は、以下を検討してください。

pip install torch==2.2.1 torchvision==0.17.1 torchaudio==2.2.1 --index-url https://download.pytorch.org/whl/cu121
pip install open_clip_torch==2.24.0
pip install einops
pip install einops-exts
pip install transformers==4.41.1