🚀 Tora:面向軌跡的擴散Transformer視頻生成模型
Tora是首個面向軌跡的擴散Transformer(DiT)框架,它能同時整合文本、視覺和軌跡條件來生成視頻。該框架在生成高質量視頻內容的同時,還能精確控制視頻的動態,具有出色的運動保真度。
🚀 快速開始
請訪問我們的 GitHub倉庫 以獲取更多詳細信息。
✨ 主要特性
- 多條件融合:同時整合文本、視覺和軌跡條件進行視頻生成。
- 軌跡控制:能夠精確控制視頻內容的動態,支持不同時長、寬高比和分辨率。
- 高運動保真度:在生成視頻時能出色地模擬現實世界的運動。
📚 詳細文檔
💡 摘要
近年來,擴散Transformer(DiT)在生成高質量視頻內容方面展現出了卓越的能力。然而,基於Transformer的擴散模型在有效生成具有可控運動的視頻方面的潛力仍有待深入探索。本文介紹了Tora,這是首個面向軌跡的DiT框架,它能同時整合文本、視覺和軌跡條件進行視頻生成。具體而言,Tora由軌跡提取器(TE)、時空DiT和運動引導融合器(MGF)組成。TE使用3D視頻壓縮網絡將任意軌跡編碼為分層的時空運動塊。MGF將運動塊整合到DiT模塊中,以生成符合軌跡的連貫視頻。我們的設計與DiT的可擴展性無縫契合,允許對不同時長、寬高比和分辨率的視頻內容動態進行精確控制。大量實驗表明,Tora在實現高運動保真度方面表現出色,同時還能細緻地模擬現實世界的運動。
📣 更新日誌
2025/01/06
🔥🔥 我們發佈了Tora圖像到視頻的功能,包括推理代碼和模型權重。
2024/12/13
Diffusers版本支持SageAttention2和模型編譯。在A10上測試,除第一步外,這些方法可使每個推理步驟加速約52%。
2024/12/09
🔥🔥 發佈了Tora的Diffusers版本及相應的模型權重。推理顯存需求降至約5 GiB。詳情請參考 此處。
2024/11/25
🔥 發佈了文本到視頻的訓練代碼。
2024/10/31
模型權重已上傳至 HuggingFace。我們還在 ModelScope 上提供了英文演示。
2024/10/23
🔥🔥 我們的 ModelScope演示 已上線。歡迎試用!我們還將模型權重上傳至 ModelScope。
2024/10/21
感謝 @kijai 在ComfyUI中支持Tora!鏈接
2024/10/15
🔥🔥 我們發佈了推理代碼和模型權重。請注意,這是基於CogVideoX - 5B模型構建的Tora的CogVideoX版本。此版本的Tora僅用於學術研究目的。由於我們的商業計劃,目前不會開源完整版本的Tora。
2024/08/27
我們發佈了包含附錄的v2論文。
2024/07/31
我們將論文提交至arXiv併發布了項目頁面。
🎞️ 展示示例
- https://github.com/user-attachments/assets/949d5e99-18c9-49d6-b669-9003ccd44bf1
- https://github.com/user-attachments/assets/7e7dbe87-a8ba-4710-afd0-9ef528ec329b
- https://github.com/user-attachments/assets/4026c23d-229d-45d7-b5be-6f3eb9e4fd50
所有視頻可在 此鏈接 查看。
🤝 致謝
我們要感謝以下開源項目,它們對我們項目的開發起到了重要作用:
特別感謝這些庫的貢獻者們的辛勤工作和付出!
📄 我們的過往工作
📚 引用
@misc{zhang2024toratrajectoryorienteddiffusiontransformer,
title={Tora: Trajectory-oriented Diffusion Transformer for Video Generation},
author={Zhenghao Zhang and Junchao Liao and Menghao Li and Zuozhuo Dai and Bingxue Qiu and Siyu Zhu and Long Qin and Weizhi Wang},
year={2024},
eprint={2407.21705},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2407.21705},
}
信息表格
屬性 |
詳情 |
模型類型 |
面向軌跡的擴散Transformer視頻生成模型 |
基礎模型 |
THUDM/CogVideoX - 5b |
任務類型 |
文本到視頻 |
庫名稱 |
diffusers |