🚀 xGen-MM-Vid (BLIP-3-Video)
xGen-MM-Vid (BLIP-3-Video)
は、明示的な時間エンコーダを備えた、動画を理解するために特別に設計された効率的なコンパクトなビジョン言語モデル(VLM)です。Salesforce AI Researchによって開発されています。
🚀 クイックスタート
xGen-MM-Vid (BLIP-3-Video)
は、明示的な時間エンコーダを備えた、動画を理解するために特別に設計された効率的なコンパクトなビジョン言語モデル(VLM)です。元の(画像ベースの)BLIP - 3アーキテクチャ内に学習可能な時間エンコーダモジュールを組み込んでいるのが特徴です。
ここでは、8フレームの動画入力を受け取るように学習された128トークンバージョンを共有しています。原則として、任意のフレーム数を受け取ることができますが、8フレームの動画で学習されています。
同じモデルの32トークンバージョンはこちらで見つけることができます:BLIP-3-Video 32トークンモデル 。
詳細については、私たちの技術レポート をチェックしてください。より詳細な説明はブログ記事 にもあります。
📚 ドキュメント
トークン数と精度
上の図は、MSVD - QAデータセットにおける、xGen-MM-Vid (BLIP-3-Video)を含むさまざまな動画モデルの視覚トークン数と精度のトレードオフを示しています。
例
あなたのブラウザはvideoタグをサポートしていません。
あなたのブラウザはvideoタグをサポートしていません。
💻 使用例
私たちのモデルを使用する例として、推論スクリプト をチェックしてください。このコードベースは、xGen-MM に基づいています。
🔧 技術詳細
主なデータソースはインターネットからのもので、ウェブページ、動画素材サイト、および研究コミュニティによって公開された精選されたデータセットが含まれます。
このモデルは、元のデータソースからのバイアス、および大規模言語モデル(LLM)や商用APIからのバイアスの影響を受ける可能性があります。
下流のアプリケーションに適用する前に、ユーザーが安全性と公平性を評価することを強く推奨します。
📄 ライセンス
私たちのコードと重みは、CC by - NC 4.0 ライセンスの下で公開されています。
🔗 コードの謝辞
私たちのコード/モデルは、xGen-MM をベースに構築されています。
🌐 倫理的な考慮事項
このリリースは学術論文のサポートのための研究目的のみです。私たちのモデル、データセット、およびコードは、すべての下流の目的に特に設計または評価されていません。このモデルをデプロイする前に、ユーザーが精度、安全性、および公平性に関する潜在的な懸念事項を評価し、対処することを強く推奨します。ユーザーには、AIの一般的な制限を考慮し、適用可能な法律を遵守し、ユースケースを選択する際にベストプラクティスを活用することをお勧めします。特に、エラーや誤用が人々の生活、権利、または安全に重大な影響を与える可能性のある高リスクシナリオについては、ユースケースに関するさらなるガイダンスについては、私たちのAUPおよびAI AUPを参照してください。
📖 引用
@misc{blip3video-xgenmmvid,
author = {Michael S. Ryoo and Honglu Zhou and Shrikant Kendre and Can Qin and Le Xue and Manli Shu and Silvio Savarese and Ran Xu and Caiming Xiong and Juan Carlos Niebles},
title = {xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs},
year = {2024},
eprint = {2410.16267},
archivePrefix = {arXiv},
primaryClass = {cs.CV},
url = {https://arxiv.org/abs/2410.16267},
}
🛠️ トラブルシューティング
パッケージが不足している場合は、以下を検討してください。
pip install torch==2.2.1 torchvision==0.17.1 torchaudio==2.2.1 --index-url https://download.pytorch.org/whl/cu121
pip install open_clip_torch==2.24.0
pip install einops
pip install einops-exts
pip install transformers==4.41.1