T

Text To Video Ms 1.7b

ali-vilabによって開発
多段階テキストから動画生成拡散モデルに基づき、英語の記述テキストを入力すると、テキストに合致した動画を返す
ダウンロード数 14.01k
リリース時間 : 3/22/2023

モデル概要

テキストから動画生成拡散モデルは3つのサブネットワークで構成される:テキスト特徴抽出モデル、テキスト特徴から動画潜在空間への拡散モデル、動画潜在空間から動画視覚空間へのモデル。全体のモデルパラメータ数は約17億で、現在は英語入力のみ対応。

モデル特徴

多段階生成アーキテクチャ
テキスト特徴抽出、テキスト特徴から動画潜在空間への拡散、動画潜在空間から視覚空間への3つのサブネットワークで構成
長尺動画生成能力
最適化技術により16GB GPUメモリ内で最大25秒の動画を生成可能
メモリ最適化技術
注意機構とVAEスライス技術をサポートし、Torch 2.0と連携してメモリ効率を向上

モデル能力

テキストから動画生成
オープンドメイン動画作成
複数オブジェクトシーン合成

使用事例

クリエイティブコンテンツ生成
架空シーン作成
非現実的なシーンでの架空人物の動画を生成、例えば宇宙飛行士が馬に乗る
滑らかな架空シーンアニメーションを生成可能
概念の可視化
抽象的な概念や文章記述を可視化動画に変換
クリエイティブな概念の可視化表現を迅速に実現
教育・エンターテインメント
教育コンテンツ制作
教育コンテンツ用の動画素材を作成
教育動画制作プロセスを簡素化
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase