caT-text-to-video-2.3bオープンソースのテキストから動画を生成するモデル - スムーズな遷移とプロンプトの補間をサポート

Cat Text To Video 2.3b

motextureによって開発

条件強化型テキスト動画生成モデル。時系列条件変換器で生成シーンを拡張しスムーズな遷移を実現、プロンプト補間機能をサポート

テキスト生成ビデオ英語オープンソースライセンス:Apache-2.0 #時系列条件変換 #プロンプト補間 #スムーズなシーン遷移

ダウンロード数 25

リリース時間 : 1/22/2025

モデル概要

このモデルはModelScopeテキスト動画生成モデルの事前学習済み重みを使用し、時系列条件変換器で強化されています。生成シーンの拡張とシーン間のスムーズな遷移を実現します。同時にプロンプト補間機能をサポートし、シーン拡張中に場面切り替えが可能です。

モデル特徴

時系列条件変換器

時系列条件変換器による強化で、生成シーンを拡張しシーン間のスムーズな遷移を実現

プロンプト補間

シーン拡張中に場面を切り替え、異なるシーン間の自然な遷移を可能にする

高解像度生成

320x320解像度の動画生成をサポート

モデル能力

テキスト動画生成

動画シーン拡張

シーン切り替え遷移

使用事例

クリエイティブコンテンツ生成

アクションシーン遷移

自転車に乗るシーンからバイクに乗るシーンへスムーズに遷移

男性が自転車に乗る → 男性がバイクに乗る

人物動作変化

ハンバーガーを食べる人物からアイスクリームを食べる人物へ自然に遷移

ウィル・スミスがハンバーガーを食べる → ウィル・スミスがアイスクリームを食べる

アニメーション生成

アニメキャラ表情変化

静止状態から大笑いするアニメ少女のアニメーションを生成

ピンク髪の美しいアニメ少女 → 大笑いするアニメ少女

🚀 caT text to video

条件付き拡張型のテキストから動画への変換モデルです。ModelScopeのテキストから動画への変換モデルの事前学習済み重みを使用し、時間的な条件付きトランスフォーマーを用いて生成されたクリップを拡張し、クリップ間のスムーズな遷移を実現します。また、クリップ拡張中にシーンを変更するためのプロンプト補間もサポートしています。

このモデルは、WebWid 10Mデータセットを使用して、2つのRTX 6000 Ada GPUで500万ステップの学習を行いました。バッチサイズは1、学習率は1e-6、解像度は320x320です。条件付けには8フレーム、ノイズサンプルには8フレームを使用し、ストライドは6でした。

🚀 クイックスタート

このモデルを使用するには、以下の手順に従ってインストールを行い、動画生成を開始できます。

📦 インストール

リポジトリのクローン

git clone https://github.com/motexture/caT-text-to-video-2.3b/
cd caT-text-to-video-2.3b
python3 -m venv venv
source venv/bin/activate  # On Windows use `venv\Scripts\activate`
pip install -r requirements.txt
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
python run.py

ブラウザで提供されたURLを開き、インターフェースとやり取りして動画の生成を開始します。