T

Text To Video Ms 1.7b Legacy

ali-vilabによって開発
多段階テキスト動画生成拡散モデルに基づき、英語の記述テキストを入力すると、記述に合った動画を生成
ダウンロード数 133
リリース時間 : 3/22/2023

モデル概要

このモデルは、テキスト特徴抽出モデル、テキスト特徴から動画潜在空間への拡散モデル、動画潜在空間から視覚空間へのモデルで構成され、UNet3D構造を採用し、反復的なノイズ除去により動画生成を実現

モデル特徴

多段階生成アーキテクチャ
テキスト特徴抽出、潜在空間拡散、視覚空間変換の3段階アーキテクチャを採用
長尺動画生成能力
メモリ最適化技術により最大25秒の動画を生成可能
高品質動画生成
テキスト記述に合った一貫性のある動画コンテンツを生成可能

モデル能力

テキストから動画生成
英語テキスト理解
動的シーン生成

使用事例

クリエイティブコンテンツ生成
架空シーン生成
想像上のシーンから動画生成、例えば宇宙飛行士が馬に乗る
記述に合った動的動画を生成
キャラクター動作生成
特定キャラクターの動作動画生成、例えばスパイダーマンがサーフィン
指定動作を実行するキャラクター動画を生成
教育デモンストレーション
概念の可視化
抽象的な概念を可視化動画に変換
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase