🚀 Tora: Trajectory-oriented Diffusion Transformer for Video Generation
Toraは、軌道指向型の拡散トランスフォーマーを用いたビデオ生成モデルです。このモデルは、テキストや軌道条件を統合して、高品質なビデオ生成を可能にします。
🚀 クイックスタート
詳細については、Githubリポジトリをご覧ください。
✨ 主な機能
- テキスト、視覚、軌道条件を同時に統合したビデオ生成
- 多様な持続時間、アスペクト比、解像度のビデオの動的な制御
- 高い動きの忠実度と物理世界の動きのシミュレーション
📚 ドキュメント
🔍 概要
最近のDiffusion Transformer (DiT) の進歩は、高品質なビデオコンテンツの生成能力を示しています。しかし、トランスフォーマーベースの拡散モデルによる動きを制御可能なビデオ生成の可能性はまだ十分に探索されていません。この論文では、Toraという、テキスト、視覚、軌道条件を同時に統合した軌道指向型のDiTフレームワークを紹介します。具体的には、ToraはTrajectory Extractor (TE)、Spatial-Temporal DiT、Motion-guidance Fuser (MGF) から構成されています。TEは、任意の軌道を3Dビデオ圧縮ネットワークを用いて階層的な時空間運動パッチにエンコードします。MGFは、これらの運動パッチをDiTブロックに統合して、軌道に沿った一貫性のあるビデオを生成します。我々の設計はDiTの拡張性とシームレスに整合し、多様な持続時間、アスペクト比、解像度のビデオコンテンツのダイナミクスを正確に制御することができます。広範な実験により、Toraが高い動きの忠実度を達成し、物理世界の動きを細かくシミュレートする能力が示されています。
📣 更新情報
2025/01/06
🔥🔥Tora Image-to-Videoをリリースしました。推論コードとモデルの重み付けを含みます。
2024/12/13
diffusersバージョンでSageAttention2とモデルのコンパイルがサポートされました。A10でテストした結果、最初のステップを除いて、各推論ステップが約52%高速化されます。
2024/12/09
🔥🔥Toraのdiffusersバージョンと対応するモデルの重み付けをリリースしました。推論VRAMの要件は約5 GiBに削減されます。詳細は こちら を参照してください。
2024/11/25
🔥Text-to-Videoのトレーニングコードをリリースしました。
2024/10/31
モデルの重み付けを HuggingFace にアップロードしました。また、ModelScope で英語のデモを提供しています。
2024/10/23
🔥🔥ModelScopeデモ を立ち上げました。是非試してみてください!また、モデルの重み付けを ModelScope にアップロードしました。
2024/10/21
@kijai がComfyUIでToraをサポートしてくれたことに感謝します! リンク
2024/10/15
🔥🔥推論コードとモデルの重み付けをリリースしました。これはCogVideoX-5BモデルをベースにしたToraのCogVideoXバージョンです。このバージョンのToraは学術研究目的のみを対象としています。商業計画のため、現時点ではToraの完全版をオープンソース化する予定はありません。
2024/08/27
付録を含むv2論文をリリースしました。
2024/07/31
論文をarXivに投稿し、プロジェクトページを公開しました。
🎞️ 展示例
- https://github.com/user-attachments/assets/949d5e99-18c9-49d6-b669-9003ccd44bf1
- https://github.com/user-attachments/assets/7e7dbe87-a8ba-4710-afd0-9ef528ec329b
- https://github.com/user-attachments/assets/4026c23d-229d-45d7-b5be-6f3eb9e4fd50
すべてのビデオはこの リンク から入手できます。
🤝 謝辞
私たちのプロジェクトの開発に大きく貢献した以下のオープンソースプロジェクトに感謝を表します。
これらのライブラリの貢献者の皆さんの努力と献身に特別な感謝を申し上げます!
📄 過去の研究
📚 引用
@misc{zhang2024toratrajectoryorienteddiffusiontransformer,
title={Tora: Trajectory-oriented Diffusion Transformer for Video Generation},
author={Zhenghao Zhang and Junchao Liao and Menghao Li and Zuozhuo Dai and Bingxue Qiu and Siyu Zhu and Long Qin and Weizhi Wang},
year={2024},
eprint={2407.21705},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2407.21705},
}
🔤 その他情報
属性 |
详情 |
モデルタイプ |
軌道指向型拡散トランスフォーマー |
訓練データ |
未記載 |
ベースモデル |
THUDM/CogVideoX-5b |
パイプラインタグ |
テキストツービデオ |
ライブラリ名 |
diffusers |
タグ |
ビデオ、ビデオ生成、cogvideox、アリババ |
ライセンス |
その他 |