T

Text To Video Lvd Ms

longlianによって開発
このモデルは大規模言語モデルとビデオ拡散技術を組み合わせ、テキストから動画生成をサポートし、バウンディングボックス条件入力を通じて動画内容を制御できます。
ダウンロード数 91
リリース時間 : 4/8/2024

モデル概要

大規模言語モデルベースのビデオ拡散モデル(LVD)はテキストから動画生成をサポートし、GLIGENスタイルのバウンディングボックス条件入力を採用しており、魔搭コミュニティの既存モデルを直接使用できます。

モデル特徴

バウンディングボックス条件制御
GLIGENスタイルのバウンディングボックス条件入力をサポートし、動画内オブジェクトの位置とサイズを精密に制御できます。
大規模言語モデル統合
大規模言語モデルを組み合わせてプロンプト理解能力を強化し、テキストから動画生成の品質を向上させます。
柔軟な応用
ビデオ版GLIGENとして単独で使用可能、または動的シーンレイアウトジェネレーターと組み合わせて使用可能です。

モデル能力

テキストから動画生成
バウンディングボックス条件制御
動的シーン生成

使用事例

クリエイティブコンテンツ生成
ショートビデオ制作
テキスト記述に基づいて自動的にショートビデオコンテンツを生成
テキスト記述に合致する動的ビデオシーンを生成可能
教育
教育ビデオ生成
教育カリキュラムに基づいて自動的に教育ビデオを生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase