xGen-MM-Vidオープンソースビジュアル言語モデル - 動画コンテンツを効率的に理解し、無料でデプロイできて超実用的！

ホーム

Xgen Mm Vid Phi3 Mini R V1.5 32tokens 8frames

Salesforceによって開発

xGen-MM-Vid (BLIP-3-Video) は、ビデオ内容を理解するために特別に設計された、明示的な時間エンコーダーを備えた高効率でコンパクトなビジュアル言語モデルです。

ビデオ生成テキスト

Safetensors

英語#ビデオ理解 #時間エンコーダー #高効率でコンパクト

ダウンロード数 441

リリース時間 : 1/15/2025

モデル概要

このモデルは、元の BLIP-3 アーキテクチャに学習可能な時間エンコーダーモジュールを組み込み、ビデオ内容の理解能力を向上させています。

モデル特徴

明示的な時間エンコーダー

明示的な時間エンコーダーを備えており、ビデオ内容をよりよく理解できます。

高効率でコンパクト

モデルは高効率でコンパクトに設計されており、ビデオ内容の処理に適しています。

拡張性

原則として任意の数のフレームを処理でき、学習時には 8 フレームのビデオを使用します。

モデル能力

ビデオ内容理解

マルチモーダル処理

時系列分析

使用事例

ビデオ分析

ビデオ質問応答

MSVD-QA データセットを使用してビデオ質問応答タスクを行います。

視覚的なトークン数と正解率の間で良好なトレードオフ関係を示しています。

🚀 xGen-MM-Vid (BLIP-3-Video)

xGen-MM-Vid (BLIP-3-Video) は、効率的でコンパクトなビジュアル言語モデル（VLM）であり、明示的な時間エンコーダを備え、動画コンテンツの理解に特化しています。このモデルはSalesforce AI Researchによって開発され、そのキーポイントは、元の（画像ベースの）BLIP-3アーキテクチャに学習可能な時間エンコーダモジュールを組み込んだことです。

🚀 クイックスタート

xGen-MM-Vid (BLIP-3-Video) は、動画理解に特化したビジュアル言語モデルです。元のBLIP-3アーキテクチャに時間エンコーダモジュールを追加することで、動画コンテンツの理解能力を向上させています。

✨ 主な機能

明示的な時間エンコーダを備え、動画コンテンツをより良く理解できます。
元のBLIP-3アーキテクチャに学習可能な時間エンコーダモジュールを組み込んでいます。

📚 ドキュメント

モデルの説明

ここで共有しているのは、8フレームの動画入力を受け付ける32トークン版の学習済みモデルです。原則として、任意のフレーム数を処理できますが、学習時には8フレームの動画を使用しています。

同じモデルの128トークン版は、以下のリンクから見つけることができます：BLIP-3-Video 128トークンモデル。

詳細情報については、技術報告をご覧ください。また、ブログ記事でも詳細な説明を見つけることができます。

結果

トークン数と精度

上の図は、xGen-MM-Vid (BLIP-3-Video) を含む様々な動画モデルの、MSVD-QAデータセットにおけるビジュアルトークン数と精度のトレードオフ関係を示しています。

例

使用方法

モデルの使用例として、推論スクリプトをご参照ください。このコードベースは xGen-MM をベースに構築されています。

バイアス、リスク、制限事項および倫理的考慮事項

主なデータソースはインターネットで、ウェブページ、動画素材サイト、および研究コミュニティが公開した選りすぐりのデータセットが含まれています。

このモデルは、元のデータソースのバイアス、および大規模言語モデル（LLMs）と商用APIのバイアスの影響を受ける可能性があります。

ユーザーは、下流タスクに適用する前に、安全性と公平性を評価することを強くお勧めします。

倫理的考慮事項

今回のリリースは、学術論文の研究目的をサポートするためのものです。当社のモデル、データセット、コードは、すべての下流用途に対して設計または評価されたものではありません。ユーザーは、このモデルをデプロイする前に、精度、安全性、公平性に関連する潜在的な問題を評価し、解決することを強くお勧めします。ユーザーは、人工知能の一般的な制限事項を考慮し、適用可能な法律を遵守し、特に誤りや乱用が人々の生活、権利、または安全に重大な影響を与える可能性のある高リスクシナリオでは、ユースケースを選択する際にベストプラクティスを採用することをお勧めします。ユースケースに関するさらなるガイダンスについては、使用規約（AUP）および人工知能使用規約（AI AUP）をご参照ください。

コードの謝辞

当社のコード/モデルは xGen-MM をベースに構築されています。

引用

@misc{blip3video-xgenmmvid,
  author          = {Michael S. Ryoo and Honglu Zhou and Shrikant Kendre and Can Qin and Le Xue and Manli Shu and Silvio Savarese and Ran Xu and Caiming Xiong and Juan Carlos Niebles},
  title           = {xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs}, 
  year            = {2024},
  eprint          = {2410.16267},
  archivePrefix   = {arXiv},
  primaryClass    = {cs.CV},
  url             = {https://arxiv.org/abs/2410.16267}, 
}

トラブルシューティング

必要なパッケージが不足している場合は、以下の操作を検討してください：

pip install torch==2.2.1 torchvision==0.17.1 torchaudio==2.2.1 --index-url https://download.pytorch.org/whl/cu121
pip install open_clip_torch==2.24.0
pip install einops
pip install einops-exts
pip install transformers==4.41.1