モデル概要
モデル特徴
モデル能力
使用事例
🚀 CogVideoX-Fun
😊 ようこそ!
このモデルは、CogVideoX構造を改良したpipelineで、生成条件がより自由なCogVideoXです。AI画像とビデオの生成、Diffusion TransformerのベースラインモデルとLoraモデルのトレーニングに使用できます。学習済みのCogVideoX-Funモデルから直接予測を行い、さまざまな解像度で6秒程度、fps8のビデオ(1~49フレーム)を生成することもできます。また、ユーザー自身でベースラインモデルとLoraモデルをトレーニングし、一定のスタイル変換を行うこともサポートしています。
🚀 クイックスタート
1. クラウドでの使用: AliyunDSW/Docker
a. 阿里云DSWを通じて
DSWには無料のGPU使用時間があり、ユーザーは一度申請することができ、申請後3か月間有効です。
阿里云はFreetierで無料のGPU使用時間を提供しており、これを取得して阿里云PAI-DSWで使用すると、5分以内にCogVideoX-Funを起動することができます。
b. ComfyUIを通じて
ComfyUIのインターフェイスは以下の通りです。詳細はComfyUI READMEをご覧ください。
c. Dockerを通じて
Dockerを使用する場合は、マシンに正しくGPUドライバとCUDA環境がインストールされていることを確認してから、以下のコマンドを順に実行してください。
# イメージをプルする
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun
# イメージに入る
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun
# コードをクローンする
git clone https://github.com/aigc-apps/CogVideoX-Fun.git
# CogVideoX-Funのディレクトリに入る
cd CogVideoX-Fun
# 重みをダウンロードする
mkdir models/Diffusion_Transformer
mkdir models/Personalized_Model
wget https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/cogvideox_fun/Diffusion_Transformer/CogVideoX-Fun-2b-InP.tar.gz -O models/Diffusion_Transformer/CogVideoX-Fun-2b-InP.tar.gz
cd models/Diffusion_Transformer/
tar -xvf CogVideoX-Fun-2b-InP.tar.gz
cd ../../
2. ローカルインストール: 環境チェック/ダウンロード/インストール
a. 環境チェック
CogVideoX-Funは以下の環境で実行できることを確認しています。
Windowsの詳細情報:
- オペレーティングシステム: Windows 10
- python: python3.10 & python3.11
- pytorch: torch2.2.0
- CUDA: 11.8 & 12.1
- CUDNN: 8+
- GPU: Nvidia-3060 12G & Nvidia-3090 24G
Linuxの詳細情報:
- オペレーティングシステム: Ubuntu 20.04, CentOS
- python: python3.10 & python3.11
- pytorch: torch2.2.0
- CUDA: 11.8 & 12.1
- CUDNN: 8+
- GPU: Nvidia-V100 16G & Nvidia-A10 24G & Nvidia-A100 40G & Nvidia-A100 80G
約60GBの空きディスク容量が必要ですので、ご確認ください。
b. 重みの配置
重みを指定されたパスに配置することをおすすめします。
📦 models/
├── 📂 Diffusion_Transformer/
│ ├── 📂 CogVideoX-Fun-2b-InP/
│ └── 📂 CogVideoX-Fun-5b-InP/
├── 📂 Personalized_Model/
│ └── トレーニングしたトランスフォーマーモデル / トレーニングしたloraモデル (UIロード用)
✨ 主な機能
CogVideoX-Funは、CogVideoX構造を改良したpipelineで、以下の機能を提供しています。
- AI画像とビデオの生成
- Diffusion TransformerのベースラインモデルとLoraモデルのトレーニング
- 学習済みのCogVideoX-Funモデルからの直接予測
- さまざまな解像度で6秒程度、fps8のビデオ(1~49フレーム)の生成
- ユーザー自身によるベースラインモデルとLoraモデルのトレーニングとスタイル変換
新機能:
- コードの作成!現在、WindowsとLinuxをサポートしています。2bと5bで、最大256x256x49から1024x1024x49の任意の解像度のビデオ生成をサポートしています。[ 2024.09.18 ]
機能の概要:
UIインターフェイスは以下の通りです。
📦 インストール
上述の「クイックスタート」セクションを参照して、クラウドまたはローカルでのインストールを行ってください。
💻 使用例
1. 生成
a. ビデオ生成
i、Pythonファイルを実行する
- ステップ1:対応する重みをダウンロードして、modelsフォルダに配置します。
- ステップ2:predict_t2v.pyファイルで、prompt、neg_prompt、guidance_scale、seedを変更します。
- ステップ3:predict_t2v.pyファイルを実行し、生成結果を待ちます。結果はsamples/cogvideox-fun-videos-t2vフォルダに保存されます。
- ステップ4:独自にトレーニングした他のバックボーンとLoraを組み合わせる場合は、predict_t2v.pyのpredict_t2v.pyとlora_pathを適宜変更します。
ii、UIインターフェイスを通じて
- ステップ1:対応する重みをダウンロードして、modelsフォルダに配置します。
- ステップ2:app.pyファイルを実行し、gradioページにアクセスします。
- ステップ3:ページで生成モデルを選択し、prompt、neg_prompt、guidance_scale、seedなどを入力して、生成をクリックし、生成結果を待ちます。結果はsampleフォルダに保存されます。
iii、ComfyUIを通じて
詳細はComfyUI READMEをご覧ください。
2. モデルトレーニング
完全なCogVideoX-Funトレーニングパイプラインには、データ前処理とVideo DiTトレーニングが含まれます。
a. データ前処理
画像データを使用してloraモデルをトレーニングする簡単なデモを提供しています。詳細はwikiを参照してください。
完全な長時間ビデオの分割、クリーニング、記述のデータ前処理パイプラインは、video caption部分のREADMEを参照して行うことができます。
文章から画像ビデオを生成するモデルをトレーニングする場合は、データセットを以下の形式で配置する必要があります。
📦 project/
├── 📂 datasets/
│ ├── 📂 internal_datasets/
│ ├── 📂 train/
│ │ ├── 📄 00000001.mp4
│ │ ├── 📄 00000002.jpg
│ │ └── 📄 .....
│ └── 📄 json_of_internal_datasets.json
json_of_internal_datasets.jsonは標準的なJSONファイルです。JSON内のfile_pathは相対パスに設定することができます。例えば:
[
{
"file_path": "train/00000001.mp4",
"text": "A group of young men in suits and sunglasses are walking down a city street.",
"type": "video"
},
{
"file_path": "train/00000002.jpg",
"text": "A group of young men in suits and sunglasses are walking down a city street.",
"type": "image"
},
.....
]
また、絶対パスに設定することもできます。
[
{
"file_path": "/mnt/data/videos/00000001.mp4",
"text": "A group of young men in suits and sunglasses are walking down a city street.",
"type": "video"
},
{
"file_path": "/mnt/data/train/00000001.jpg",
"text": "A group of young men in suits and sunglasses are walking down a city street.",
"type": "image"
},
.....
]
b. Video DiTトレーニング
データ前処理でデータの形式が相対パスの場合は、scripts/train.shに以下の設定を行います。
export DATASET_NAME="datasets/internal_datasets/"
export DATASET_META_NAME="datasets/internal_datasets/json_of_internal_datasets.json"
...
train_data_format="normal"
データの形式が絶対パスの場合は、scripts/train.shに以下の設定を行います。
export DATASET_NAME=""
export DATASET_META_NAME="/mnt/data/json_of_internal_datasets.json"
最後に、scripts/train.shを実行します。
sh scripts/train.sh
いくつかのパラメータの設定詳細については、Readme TrainとReadme Loraを参照してください。
📚 ドキュメント
ビデオ作品
展示されている結果はすべて画像からビデオを生成したものです。
CogVideoX-Fun-5B
解像度1024
解像度768
解像度512
CogVideoX-Fun-2B
解像度768
モデルアドレス
名称 | ストレージ容量 | Hugging Face | Model Scope | 説明 |
---|---|---|---|---|
CogVideoX-Fun-2b-InP.tar.gz | 解凍前9.7 GB / 解凍後13.0 GB | 🤗Link | 😄Link | 公式の画像からビデオを生成する重み。複数の解像度(512、768、1024、1280)のビデオ予測をサポートし、49フレーム、毎秒8フレームでトレーニングされています。 |
CogVideoX-Fun-5b-InP.tar.gz | 解凍前16.0GB / 解凍後20.0 GB | 🤗Link | 😄Link | 公式の画像からビデオを生成する重み。複数の解像度(512、768、1024、1280)のビデオ予測をサポートし、49フレーム、毎秒8フレームでトレーニングされています。 |
将来の計画
- 中国語のサポート
参考文献
- CogVideo: https://github.com/THUDM/CogVideo/
- EasyAnimate: https://github.com/aigc-apps/EasyAnimate
📄 ライセンス
このプロジェクトは Apache License (Version 2.0) を採用しています。
CogVideoX-2Bモデル(対応するTransformersモジュール、VAEモジュールを含む)は Apache 2.0 ライセンス の下で公開されています。
CogVideoX-5Bモデル(Transformerモジュール)はCogVideoXライセンスの下で公開されています。



