Tora_T2V_diffusers開源視頻生成模型 - 整合多條件生成高質量視頻內容

首頁

Tora T2V Diffusers

由Alibaba-Research-Intelligence-Computing開發

Tora是一個基於擴散Transformer的視頻生成框架，能夠整合文本、視覺和軌跡條件生成高質量視頻內容。

文本生成視頻英語開源協議:其他 #軌跡控制視頻生成 #擴散Transformer架構 #多條件視頻合成

下載量 17

發布時間 : 12/9/2024

模型概述

Tora是首個面向軌跡的DiT框架，通過軌跡提取器、時空DiT和運動引導融合器實現可控視頻生成，支持精確控制視頻動態特性。

模型特點

軌跡控制

通過軌跡提取器和運動引導融合器實現精確的視頻運動控制

多條件整合

可同時整合文本、視覺和軌跡條件進行視頻生成

高擴展性

設計與DiT的可擴展性完美契合，支持多種視頻參數控制

物理模擬

能夠精細模擬物理世界的運動規律

模型能力

文本生成視頻

軌跡控制視頻生成

多條件視頻合成

高保真運動生成

使用案例

創意內容生成

廣告視頻製作

根據文本描述和指定運動軌跡生成產品展示視頻

生成符合品牌要求的動態展示內容

動畫製作

通過軌跡控制生成角色動畫

實現精確的角色運動控制

教育演示

物理現象模擬

生成符合物理規律的運動演示視頻

幫助學生理解複雜物理概念

🚀 Tora：面向軌跡的擴散Transformer視頻生成模型

Tora是首個面向軌跡的擴散Transformer（DiT）框架，它能同時整合文本、視覺和軌跡條件來生成視頻。該框架在生成高質量視頻內容的同時，還能精確控制視頻的動態，具有出色的運動保真度。

🚀 快速開始

請訪問我們的 GitHub倉庫以獲取更多詳細信息。

✨ 主要特性

多條件融合：同時整合文本、視覺和軌跡條件進行視頻生成。
軌跡控制：能夠精確控制視頻內容的動態，支持不同時長、寬高比和分辨率。
高運動保真度：在生成視頻時能出色地模擬現實世界的運動。

📚 詳細文檔

💡 摘要

近年來，擴散Transformer（DiT）在生成高質量視頻內容方面展現出了卓越的能力。然而，基於Transformer的擴散模型在有效生成具有可控運動的視頻方面的潛力仍有待深入探索。本文介紹了Tora，這是首個面向軌跡的DiT框架，它能同時整合文本、視覺和軌跡條件進行視頻生成。具體而言，Tora由軌跡提取器（TE）、時空DiT和運動引導融合器（MGF）組成。TE使用3D視頻壓縮網絡將任意軌跡編碼為分層的時空運動塊。MGF將運動塊整合到DiT模塊中，以生成符合軌跡的連貫視頻。我們的設計與DiT的可擴展性無縫契合，允許對不同時長、寬高比和分辨率的視頻內容動態進行精確控制。大量實驗表明，Tora在實現高運動保真度方面表現出色，同時還能細緻地模擬現實世界的運動。

📣 更新日誌

2025/01/06 🔥🔥 我們發佈了Tora圖像到視頻的功能，包括推理代碼和模型權重。
2024/12/13 Diffusers版本支持SageAttention2和模型編譯。在A10上測試，除第一步外，這些方法可使每個推理步驟加速約52%。
2024/12/09 🔥🔥 發佈了Tora的Diffusers版本及相應的模型權重。推理顯存需求降至約5 GiB。詳情請參考此處。
2024/11/25 🔥 發佈了文本到視頻的訓練代碼。
2024/10/31 模型權重已上傳至 HuggingFace。我們還在 ModelScope 上提供了英文演示。
2024/10/23 🔥🔥 我們的 ModelScope演示已上線。歡迎試用！我們還將模型權重上傳至 ModelScope。
2024/10/21 感謝 @kijai 在ComfyUI中支持Tora！鏈接
2024/10/15 🔥🔥 我們發佈了推理代碼和模型權重。請注意，這是基於CogVideoX - 5B模型構建的Tora的CogVideoX版本。此版本的Tora僅用於學術研究目的。由於我們的商業計劃，目前不會開源完整版本的Tora。
2024/08/27 我們發佈了包含附錄的v2論文。
2024/07/31 我們將論文提交至arXiv併發布了項目頁面。

🎞️ 展示示例

https://github.com/user-attachments/assets/949d5e99-18c9-49d6-b669-9003ccd44bf1
https://github.com/user-attachments/assets/7e7dbe87-a8ba-4710-afd0-9ef528ec329b
https://github.com/user-attachments/assets/4026c23d-229d-45d7-b5be-6f3eb9e4fd50

所有視頻可在此鏈接查看。

🤝 致謝

我們要感謝以下開源項目，它們對我們項目的開發起到了重要作用：

CogVideo：由清華知識工程組開發的開源視頻生成框架。
Open - Sora：由HPC - AI Tech開發的開源視頻生成框架。
MotionCtrl：由騰訊PCG ARC實驗室開發的支持運動控制的視頻生成模型。
ComfyUI - DragNUWA：DragNUWA在ComfyUI上的實現。

特別感謝這些庫的貢獻者們的辛勤工作和付出！

📄 我們的過往工作

AnimateAnything: Fine Grained Open Domain Image Animation with Motion Guidance

📚 引用

@misc{zhang2024toratrajectoryorienteddiffusiontransformer,
      title={Tora: Trajectory-oriented Diffusion Transformer for Video Generation},
      author={Zhenghao Zhang and Junchao Liao and Menghao Li and Zuozhuo Dai and Bingxue Qiu and Siyu Zhu and Long Qin and Weizhi Wang},
      year={2024},
      eprint={2407.21705},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2407.21705},
}