DFoT開源視頻擴散模型 - 依據多上下文幀免費生成高質量視頻

首頁

Dfot

由kiwhansong開發

一種新穎的視頻擴散模型，能夠根據任意數量的上下文幀生成高質量視頻

視頻處理開源協議:MIT #視頻擴散生成 #多幀條件生成 #長視頻穩定性

下載量 47.19k

發布時間 : 2/7/2025

模型概述

DFoT是一種創新的視頻生成模型，結合了歷史引導(HG)方法，顯著提升了視頻生成質量、時間一致性和運動動態，支持從單幀或多幀圖像生成短視頻或極長視頻

模型特點

歷史引導(HG)方法

DFoT特有的引導技術，顯著提升視頻生成質量、時間一致性和運動動態

靈活上下文輸入

支持從任意數量(包括單張)的上下文幀生成視頻

長視頻生成能力

能夠生成10秒以上的長視頻，甚至支持無限導航視頻生成

組合視頻生成

支持將不同視頻片段組合生成連貫的長視頻

模型能力

從單張圖像生成視頻

從多幀圖像生成視頻

生成長時間穩定視頻

組合視頻生成

視頻動態控制

使用案例

視頻創作

短視頻生成

從1-2張圖像生成2秒的短視頻

高質量、時間一致的短視頻片段

長視頻生成

從單張圖像生成10秒以上的長視頻

動態穩定、連貫的長視頻

無限導航視頻

從單張圖像生成無限延展的導航視頻

持續穩定、無邊界限制的視頻流

內容編輯

視頻組合

將不同視頻片段組合生成連貫的新視頻

無縫銜接的組合視頻

🚀 擴散強制變壓器（Diffusion Forcing Transformer）

本項目是論文 《歷史引導的視頻擴散》 的官方模型中心。我們推出了 擴散強制變壓器（Diffusion Forcing Tranformer，DFoT），這是一種新穎的視頻擴散模型，旨在根據任意數量的上下文幀生成視頻。此外，我們還提出了 歷史引導（History Guidance，HG） 方法，這是一類由 DFoT 獨特實現的引導方法。這些方法顯著提高了視頻生成的質量、時間一致性和運動動態，同時還解鎖了新的功能，如組合視頻生成和極長視頻的穩定滾動。

image/png

🚀 快速開始

🤗 試用 DFoT 生成視頻！

我們在 HuggingFace Spaces 上提供了一個 交互式 演示，您可以在其中使用 DFoT 和歷史引導方法生成視頻。在 RealEstate10K 數據集上，您可以進行以下操作：

任意數量的圖像 → 2 秒短視頻
單張圖像 → 10 秒長視頻
單張圖像 → 無限導航視頻（如上面的預告所示！）

快來體驗，享受使用 DFoT 生成視頻的樂趣吧！

🚀 使用方法

所有預訓練模型都可以從我們的 GitHub 代碼庫自動加載。請訪問我們的倉庫獲取更多說明！

📄 許可證

本項目採用 MIT 許可證。

📌 引用

如果我們的工作對您的研究有幫助，請考慮引用我們的論文：

@misc{song2025historyguidedvideodiffusion,
  title={History-Guided Video Diffusion}, 
  author={Kiwhan Song and Boyuan Chen and Max Simchowitz and Yilun Du and Russ Tedrake and Vincent Sitzmann},
  year={2025},
  eprint={2502.06764},
  archivePrefix={arXiv},
  primaryClass={cs.LG},
  url={https://arxiv.org/abs/2502.06764}, 
}