🚀 TransPixar: 透明度を持つテキストから動画生成の進化
テキストから動画生成するモデルは、エンターテイメント、広告、教育など様々な分野での応用を可能にするなど、大きな進歩を遂げています。しかし、透明度を表すアルファチャンネルを含むRGBA動画の生成は、データセットが限られていることや既存モデルの適応が難しいため、依然として課題となっています。アルファチャンネルは、煙や反射などの透明要素をシーンに自然に融合させることができるため、ビジュアルエフェクト(VFX)において重要です。
私たちは、TransPixarを提案します。これは、事前学習された動画モデルをRGBA生成に拡張し、元のRGB機能を維持する方法です。TransPixarは、拡散トランスフォーマー(DiT)アーキテクチャを利用し、アルファ固有のトークンを組み込み、LoRAベースの微調整を使用して、RGBとアルファチャンネルを高い一貫性で同時に生成します。注意機構を最適化することで、TransPixarは元のRGBモデルの強みを維持し、限られた学習データでもRGBとアルファチャンネル間の強いアライメントを達成します。
このアプローチは、多様で一貫性のあるRGBA動画を効果的に生成し、VFXやインタラクティブコンテンツ作成の可能性を広げます。
[論文](https://arxiv.org/abs/2501.03006)
[プロジェクトページ](https://wileewang.github.io/TransPixar)
[HuggingFaceデモ](https://huggingface.co/spaces/wileewang/TransPixar)
このリポジトリには、論文 TransPixar: Advancing Text-to-Video Generation with Transparency のモデルが含まれています。
コード: https://github.com/wileewang/TransPixar
Wang Luozhou*,
Li Yijun**,
Chen Zhifei,
Wang Jui-Hsien,
Zhang Zhifei,
Zhang He,
Lin Zhe,
Chen Yingcong†
香港科技大学(広州)、香港科技大学、アドビリサーチ。
* インターンシッププロジェクト。
** プロジェクトリーダー。
† 責任著者。
🚀 クイックスタート
このセクションでは、TransPixarを使用するための基本的な手順を説明します。まずはインストールから始めましょう。
📰 ニュース
- [2024.01.07] TransPixar + CogVideoXのプロジェクトページ、arXiv論文、推論コード、およびHuggingFaceデモを公開しました。
🚧 今後の予定
- [x] コード、論文、デモの公開。
- [x] 同時生成(RGB + アルファ)のチェックポイントの公開。
📦 インストール
以下のコマンドを使用して、必要な環境をセットアップします。
conda create -n TransPixar python=3.10
conda activate TransPixar
pip install -r requirements.txt
💻 使用例
TransPixar LoRAハブ
このパイプラインは、テキストからRGBA動画、画像からRGBA動画など、様々な動画タスクをサポートするように設計されています。
以下は、異なるタスクに対する事前学習されたLoRAウェイトです。
トレーニング - RGB + アルファ同時生成
私たちは、MochiのRGBA同時生成に関するトレーニングコードをオープンソース化しています。詳細については、Mochi README を参照してください。
推論 - Gradioデモ
Hugging Faceのオンラインデモ に加えて、以下のコマンドを実行することで、CogVideoX-5Bをベースにしたローカル推論デモを起動することができます。
python app.py
推論 - コマンドラインインターフェイス(CLI)
RGBA動画を生成するには、動画モデルの対応するディレクトリに移動し、以下のコマンドを実行します。
python cli.py \
--lora_path /path/to/lora \
--prompt "..." \
📚 ドキュメント
このセクションでは、TransPixarの詳細な説明や使用方法について提供します。
謝辞
彼らの優れた仕事とオープンソースコミュニティへの慷慨な貢献に感謝します。
引用
もしあなたがこの研究を引用する場合は、以下のBibTeXエントリを使用してください。
@misc{wang2025transpixar,
title={TransPixar: Advancing Text-to-Video Generation with Transparency},
author={Luozhou Wang and Yijun Li and Zhifei Chen and Jui-Hsien Wang and Zhifei Zhang and He Zhang and Zhe Lin and Yingcong Chen},
year={2025},
eprint={2501.03006},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2501.03006},
}
📄 ライセンス
このプロジェクトは、Apache 2.0ライセンスの下で公開されています。