Latte - 1開源視頻生成模型 - 免費支持多數據集預訓練用於文本生成視頻

首頁

Latte 1

由maxin-cn開發

Latte是一個基於Transformer的潛在擴散模型，專注於文本生成視頻任務，支持多種數據集預訓練權重。

文本生成視頻開源協議:Apache-2.0 #文本生成視頻 #潛在擴散Transformer #多模態生成

下載量 1,027

發布時間 : 6/3/2024

模型概述

Latte是一個基於Transformer架構的潛在擴散模型，主要用於文本生成視頻任務。它支持從文本輸入生成高質量視頻內容，並提供了多種數據集的預訓練權重。

模型特點

文本生成視頻

支持從文本描述生成高質量視頻內容

多數據集支持

提供FaceForensics、SkyTimelapse、UCF101和Taichi-HD等多種數據集的預訓練權重

Transformer架構

採用基於Transformer的潛在擴散模型架構

文本生成圖像功能

最新版本Latte-1同時支持文本生成圖像功能

模型能力

文本生成視頻

文本生成圖像

使用案例

視頻創作

創意視頻生成

根據文本描述自動生成創意視頻內容

可生成高質量的視頻片段

教育

教學視頻生成

根據教學內容自動生成演示視頻

🚀 Latte：用於視頻生成的潛在擴散Transformer

本倉庫包含我們探索使用Transformer的潛在擴散模型（Latte）的文本到視頻生成預訓練權重。你可以在我們的項目頁面上查看更多可視化效果。如果你想獲取在FaceForensics、SkyTimelapse、UCF101和Taichi - HD上的預訓練權重，請參考此處。

📢 最新消息

(🔥 新消息) 2024年5月23日。💥 用於文本到視頻生成的 Latte - 1 發佈啦！你可以從這裡下載預訓練模型。Latte - 1還支持文本到圖像生成，請運行bash腳本 sample/t2i.sh。
(🔥 新消息) 2024年3月20日。💥 一個更新版的LatteT2V模型即將推出，敬請期待！
(🔥 新消息) 2024年2月24日。💥 我們非常感謝研究人員和開發者喜歡我們的工作。我們將繼續更新我們的LatteT2V模型，希望我們的努力能助力社區發展。我們創建了Latte的Discord頻道用於討論，歡迎開發者貢獻代碼。
(🔥 新消息) 2024年1月9日。💥 一個使用PixArt - α初始化的更新版LatteT2V模型發佈了，檢查點可以在這裡找到。
(🔥 新消息) 2023年10月31日。💥 訓練和推理代碼已發佈。所有檢查點（包括FaceForensics、SkyTimelapse、UCF101和Taichi - HD）可以在這裡找到。此外，還提供了LatteT2V推理代碼。

📞 聯繫我們

王耀輝：wangyaohui@pjlab.org.cn 馬鑫：xin.ma1@monash.edu

📚 引用

如果你發現這項工作對你的研究有用，請考慮引用它。

@article{ma2024latte,
  title={Latte: Latent Diffusion Transformer for Video Generation},
  author={Ma, Xin and Wang, Yaohui and Jia, Gengyun and Chen, Xinyuan and Liu, Ziwei and Li, Yuan - Fang and Chen, Cunjian and Qiao, Yu},
  journal={arXiv preprint arXiv:2401.03048},
  year={2024}
}

論文鏈接：https://huggingface.co/papers/2401.03048