ラテ - 1オープンソース動画生成モデル - 無料で複数のデータセットの事前学習をサポートし、テキストから動画を生成できます

ホーム

Latte 1

maxin-cnによって開発

LatteはTransformerベースの潜在拡散モデルで、テキストから動画生成タスクに特化しており、複数のデータセットの事前学習済み重みをサポートしています。

テキスト生成ビデオオープンソースライセンス:Apache-2.0 #テキストから動画生成 #潜在拡散Transformer #マルチモーダル生成

ダウンロード数 1,027

リリース時間 : 6/3/2024

モデル概要

LatteはTransformerアーキテクチャに基づく潜在拡散モデルで、主にテキストから動画生成タスクに使用されます。テキスト入力から高品質な動画コンテンツを生成でき、複数のデータセットの事前学習済み重みを提供しています。

モデル特徴

テキストから動画生成

テキスト記述から高品質な動画コンテンツを生成可能

複数データセット対応

FaceForensics、SkyTimelapse、UCF101、Taichi-HDなど複数のデータセットの事前学習済み重みを提供

Transformerアーキテクチャ

Transformerベースの潜在拡散モデルアーキテクチャを採用

テキストから画像生成機能

最新バージョンLatte-1ではテキストから画像生成機能もサポート

モデル能力

テキストから動画生成

テキストから画像生成

使用事例

動画制作

クリエイティブ動画生成

テキスト記述に基づいて自動的にクリエイティブな動画コンテンツを生成

高品質な動画クリップを生成可能

教育

教育用動画生成

教育内容に基づいて自動的にデモンストレーション動画を生成

🚀 Latte: ビデオ生成用潜在拡散トランスフォーマー

このリポジトリには、トランスフォーマーを用いた潜在拡散モデル（Latte）に関する論文のテキストからビデオへの生成の事前学習済みウェイトが含まれています。より多くのビジュアライゼーションをプロジェクトページで見ることができます。 FaceForensics、SkyTimelapse、UCF101、Taichi-HDの事前学習済みウェイトを取得したい場合は、こちらを参照してください。

✨ 主な機能

ニュース

(🔥 新着) 2024年5月23日。💥 テキストからビデオへの生成用の Latte-1 がリリースされました！事前学習済みモデルはこちらからダウンロードできます。Latte-1はテキストから画像への生成もサポートしており、bash sample/t2i.shを実行してください。
(🔥 新着) 2024年3月20日。💥 更新されたLatteT2Vモデルが間もなく登場しますので、お楽しみに！
(🔥 新着) 2024年2月24日。💥 研究者や開発者の皆様に当社の作品が好評いただき、大変ありがたいです。LatteT2Vモデルを引き続き更新し、コミュニティの発展に貢献できるよう努めます。当社のLatte Discordチャンネルを作成し、議論を行っています。コーダーの皆様の貢献を歓迎します。
(🔥 新着) 2024年1月9日。💥 PixArt-αで初期化された更新版のLatteT2Vモデルがリリースされました。チェックポイントはこちらで確認できます。
(🔥 新着) 2023年10月31日。💥 学習と推論コードがリリースされました。すべてのチェックポイント（FaceForensics、SkyTimelapse、UCF101、Taichi-HDを含む）はこちらで見つけることができます。さらに、LatteT2Vの推論コードも提供されています。

お問い合わせ

王耀輝: wangyaohui@pjlab.org.cn 馬鑫: xin.ma1@monash.edu

引用

この研究があなたの研究に役立つ場合は、引用を検討してください。

@article{ma2024latte,
  title={Latte: Latent Diffusion Transformer for Video Generation},
  author={Ma, Xin and Wang, Yaohui and Jia, Gengyun and Chen, Xinyuan and Liu, Ziwei and Li, Yuan-Fang and Chen, Cunjian and Qiao, Yu},
  journal={arXiv preprint arXiv:2401.03048},
  year={2024}
}

論文: https://huggingface.co/papers/2401.03048