videollm-online-8b-v1plusオープンソースマルチモーダルモデル - 無料でオンラインビデオ理解とコンテンツ生成をサポート

ホーム

Videollm Online 8b V1plus

chenjoyaによって開発

VideoLLM-onlineはLlama-3-8B-Instructをベースとしたマルチモーダル大規模言語モデルで、オンライン動画理解と動画-テキスト生成タスクに特化しています。

ビデオ生成テキスト

Safetensors

英語オープンソースライセンス:MIT #リアルタイム動画理解 #マルチモーダルLLM #長尺動画処理

ダウンロード数 1,688

リリース時間 : 6/22/2024

モデル概要

このモデルは視覚と言語処理能力を統合し、最大10分間の動画ストリームをリアルタイムで処理可能で、2-10フレーム/秒のフレームレート分析をサポートし、オンライン動画理解とインタラクティブなアプリケーションシーンに適しています。

モデル特徴

リアルタイム動画処理

2-10フレーム/秒のリアルタイム動画ストリーム処理をサポートし、最大10分間の動画コンテンツを処理可能

マルチモーダル理解

視覚エンコーダー(SigLIP)と言語モデル(Llama-3)を統合し、動画コンテンツの深い理解を実現

効率的な視覚エンコーディング

CLSトークン+平均プーリングの3x3トークン戦略を採用し、384解像度で効率的な処理を維持

大規模トレーニングデータ

Ego4Dデータセットの134K動画サンプルを使用してトレーニングされ、多様なシーンを網羅

モデル能力

オンライン動画理解

動画コンテンツ記述生成

マルチモーダル推論

リアルタイム動画インタラクション

使用事例

動画分析

動画コンテンツ要約

長尺動画の内容要約を自動生成

10分間の動画を処理し正確な要約を生成可能

リアルタイム動画QA

再生中の動画コンテンツに対してリアルタイムで質問応答

2-10フレーム/秒のリアルタイム応答をサポート

人間-コンピュータインタラクション

動画支援対話

動画コンテンツに基づく自然言語対話システム

ユーザーと動画コンテンツについて深い対話が可能

🚀 ビデオLLMオンラインモデル

このモデルは、ストリーミングビデオに対応したマルチモーダルな大規模言語モデルで、ビデオ理解やテキスト生成などのタスクに活用できます。

🚀 クイックスタート

まずは、GitHubリポジトリをクローンし、インストール手順に従ってください。

git clone https://github.com/showlab/videollm-online

MinicondaとPythonバージョン3.10以上がインストールされていることを確認し、以下のコマンドを実行します。

conda install -y pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
pip install transformers accelerate deepspeed peft editdistance Levenshtein tensorboard gradio moviepy submitit
pip install flash-attn --no-build-isolation

PyTorchのソースでffmpegがインストールされますが、古いバージョンであり、前処理の品質が低いことが多いです。最新のffmpegを以下の手順でインストールしてください。

wget https://johnvansickle.com/ffmpeg/releases/ffmpeg-release-amd64-static.tar.xz
tar xvf ffmpeg-release-amd64-static.tar.xz
rm ffmpeg-release-amd64-static.tar.xz
mv ffmpeg-7.0.1-amd64-static ffmpeg

リアルタイムストリーミングの音声でモデルを試したい場合は、ChatTTSもクローンしてください。

pip install omegaconf vocos vector_quantize_pytorch cython
git clone git+https://github.com/2noise/ChatTTS
mv ChatTTS demo/rendering/

ローカルでGradioデモを起動するには、以下のコマンドを実行します。

python -m demo.app --resume_from_checkpoint chenjoya/videollm-online-8b-v1plus

または、ローカルでCLIを起動するには、以下のコマンドを実行します。

python -m demo.cli --resume_from_checkpoint chenjoya/videollm-online-8b-v1plus

✨ 主な機能

マルチモーダルな大規模言語モデルで、ビデオとテキストの相互作用をサポートします。
ストリーミングビデオに対応しており、リアルタイムでのビデオ理解が可能です。

📦 インストール

インストール手順は「クイックスタート」を参照してください。

📚 ドキュメント

モデル詳細

LLM: meta-llama/Meta-Llama-3-8B-Instruct
ビジョン戦略:
- フレームエンコーダ: google/siglip-large-patch16-384
- フレームトークン: CLSトークン + 3x3トークンの平均プーリング
- フレームFPS: 学習時は2、推論時は2～10
- フレーム解像度: 最大解像度384、アスペクト比を維持するためにゼロパディング
- ビデオ長: 10分
学習データ: Ego4D Narration Stream 113K + Ego4D GoalStep Stream 21K

モデルソース

リポジトリ: https://github.com/showlab/videollm-online
論文: https://arxiv.org/abs/2406.11816

引用

@inproceedings{videollm-online,
  author       = {Joya Chen and Zhaoyang Lv and Shiwei Wu and Kevin Qinghong Lin and Chenan Song and Difei Gao and Jia-Wei Liu and Ziteng Gao and Dongxing Mao and Mike Zheng Shou},
  title        = {VideoLLM-online: Online Video Large Language Model for Streaming Video},
  booktitle    = {CVPR},
  year         = {2024},
}