V

Vid

AVIIAXによって開発
拡散モデルに基づくマルチステージのテキストから動画への生成システムで、英語の記述に応じた動画コンテンツを生成可能
ダウンロード数 479
リリース時間 : 11/2/2023

モデル概要

このモデルは、テキスト特徴抽出、拡散モデル、動画空間変換の3つのサブネットワークを通じてテキストから動画を生成し、パラメータ数は約17億

モデル特徴

マルチステージ生成アーキテクチャ
テキスト特徴抽出、動画潜在空間拡散、視覚空間変換の3つのサブネットワークを含む
長尺動画生成サポート
アテンション機構とVAEスライス技術により、最大25秒の動画を生成可能
メモリ最適化
モデルのCPUオフロードとVAEスライスをサポートし、16GB GPUで動作可能

モデル能力

英語テキストから動画生成
動的シーン合成
複数オブジェクトの組み合わせ生成

使用事例

クリエイティブコンテンツ生成
架空シーン生成
現実には存在しない架空のシーン動画を生成(例: 宇宙飛行士が馬に乗る)
滑らかな架空の動作動画を生成可能
キャラクター動作シミュレーション
特定キャラクターに指定した動作動画を生成(例: スパイダーマンがサーフィン)
キャラクター特性を保持しながら指定動作を完了
概念の可視化
抽象概念の可視化
抽象的なテキスト記述を直観的な動画に変換
テキスト記述に合致した動画コンテンツを生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase