TransPixar開源文本到視頻模型 - 免費生成含透明度通道的RGBA視頻

首頁

Transpixar

由wileewang開發

TransPixar是一種能夠生成包含透明度通道（alpha通道）的RGBA視頻的文本到視頻生成模型

視頻處理開源協議:Apache-2.0 #透明視頻生成 #RGBA通道 #視覺特效

下載量 95

發布時間 : 12/31/2024

模型概述

TransPixar通過擴展預訓練視頻模型實現RGBA生成，同時保留原始RGB生成能力，為視覺特效和交互式內容創作提供新可能

模型特點

RGBA視頻生成

能夠生成包含透明度通道的視頻，實現透明元素與場景的無縫融合

雙通道一致性

通過優化注意力機制，實現RGB與alpha通道的高一致性聯合生成

有限數據訓練

在有限訓練數據下仍能保持原始RGB模型優勢

模型能力

文本到RGBA視頻生成

圖像到RGBA視頻生成

透明特效視頻生成

使用案例

視覺特效

煙霧特效生成

生成帶有透明通道的煙霧特效視頻

可實現與場景的自然融合

反射效果生成

生成帶有透明反射效果的特效視頻

增強場景真實感

內容創作

交互式內容製作

為交互式應用生成帶透明通道的視頻素材

便於後期合成和處理

🚀 TransPixar：以透明度提升文本到視頻生成能力

文本到視頻生成模型在娛樂、廣告和教育等領域有著廣泛的應用。然而，生成包含透明度信息（RGBA）的視頻仍然是一個挑戰，因為相關數據集有限，且現有模型難以適應。透明度通道（Alpha通道）對於視覺效果（VFX）至關重要，它能讓煙霧、反射等透明元素無縫融入場景。本項目提出了 TransPixar 方法，可擴展預訓練視頻模型以生成 RGBA 視頻，同時保留原有的 RGB 生成能力。

代碼倉庫：https://github.com/wileewang/TransPixar

作者信息：

單位：香港科技大學（廣州）、香港科技大學、Adobe 研究院

* 實習項目 ** 項目負責人 † 通訊作者

🚀 快速開始

本倉庫包含了論文 TransPixar: Advancing Text-to-Video Generation with Transparency 中的模型。

✨ 主要特性

文本到視頻生成模型已經取得了顯著進展，但生成包含透明度信息的 RGBA 視頻仍然是一個挑戰。我們提出的 TransPixar 方法具有以下特性：

擴展預訓練模型：在保留原有 RGB 生成能力的基礎上，擴展預訓練視頻模型以生成 RGBA 視頻。
擴散變壓器架構：採用擴散變壓器（DiT）架構，結合特定於 Alpha 通道的令牌，並使用基於 LoRA 的微調方法，以高度一致的方式聯合生成 RGB 和 Alpha 通道。
優化注意力機制：通過優化注意力機制，保留原始 RGB 模型的優勢，並在有限的訓練數據下實現 RGB 和 Alpha 通道之間的強對齊。

📦 安裝指南

conda create -n TransPixar python=3.10
conda activate TransPixar
pip install -r requirements.txt

📚 詳細文檔

TransPixar LoRA 中心

我們的管道支持各種視頻任務，包括文本到 RGBA 視頻、圖像到 RGBA 視頻。我們為不同任務提供了以下預訓練的 LoRA 權重：

任務	基礎模型	幀數	LoRA 權重
T2V + RGBA	genmo/mochi-1-preview	37	即將推出
T2V + RGBA	THUDM/CogVideoX-5B	49	鏈接
I2V + RGBA	THUDM/CogVideoX-5b-I2V	49	即將推出

訓練 - RGB + Alpha 聯合生成

我們已經開源了在 RGBA 聯合生成任務上對 Mochi 進行訓練的代碼。詳細信息請參考 Mochi README。

推理

Gradio 演示

除了 Hugging Face 在線演示，用戶還可以通過運行以下命令在本地啟動基於 CogVideoX-5B 的推理演示：

python app.py

命令行界面（CLI）

要生成 RGBA 視頻，請導航到視頻模型的相應目錄並執行以下命令：

python cli.py \
    --lora_path /path/to/lora \
    --prompt "..." \

📄 許可證

本項目採用 Apache-2.0 許可證。

致謝

finetrainers：我們參考了他們對 Mochi 進行訓練和推理的實現。
CogVideoX：我們參考了他們對 CogVideoX 進行訓練和推理的實現。

感謝他們的傑出工作以及對開源社區的慷慨貢獻。

引用

@misc{wang2025transpixar,
    title={TransPixar: Advancing Text-to-Video Generation with Transparency}, 
    author={Luozhou Wang and Yijun Li and Zhifei Chen and Jui-Hsien Wang and Zhifei Zhang and He Zhang and Zhe Lin and Yingcong Chen},
    year={2025},
    eprint={2501.03006},
    archivePrefix={arXiv},
    primaryClass={cs.CV},
    url={https://arxiv.org/abs/2501.03006}, 
}