M

Modelscope Damo Text To Video Synthesis

ali-vilabによって開発
多段階テキストから動画を生成する拡散モデルで、英語の説明テキストを入力すると、テキストの内容に合った動画を生成します
ダウンロード数 2,573
リリース時間 : 3/19/2023

モデル概要

拡散モデルのアーキテクチャを採用し、テキスト特徴抽出、動画潜在空間拡散、視覚空間デコードという3つのコアサブネットワークを通じて、テキストから動画を生成する機能を実現

モデル特徴

多段階生成アーキテクチャ
テキスト特徴抽出、動画潜在空間拡散、視覚デコードという3つのコアモジュールを含む
反復ノイズ除去生成
ガウスノイズ動画から反復的にノイズを除去する生成方式を採用
オープンデータセットでのトレーニング
Webvidなどの公開データセットに基づいてトレーニングされ、多様な動画生成をサポート

モデル能力

テキストから動画生成
英語テキスト理解
動的シーン生成

使用事例

クリエイティブコンテンツ生成
概念の可視化
抽象的な概念を可視化動画に変換
テキスト記述に合った動的シーンを生成
教育コンテンツ制作
自動的に教育用デモ動画を生成
基本的な教材を迅速に作成
プロトタイプ設計
製品コンセプト展示
製品説明に基づいてコンセプト動画を生成
製品設計理念を迅速に可視化
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase