CogVideoX-Fun-5b-InPオープンソース動画生成ツール - テキスト/画像から6秒の動画生成をサポート

ホーム

Cogvideox Fun 5b InP

alibaba-paiによって開発

CogVideoXアーキテクチャを改良した動画生成ツールで、テキスト/画像から6秒程度、8fpsの動画を生成可能

テキスト生成ビデオ英語オープンソースライセンス:その他 #高解像度動画生成 #画像から動画生成 #DiTアーキテクチャ

ダウンロード数 16

リリース時間 : 9/18/2024

モデル概要

CogVideoXファン版は生成条件が自由な動画生成ツールで、AI画像/動画生成、Diffusion TransformerベースモデルとLoraモデルのトレーニングをサポートし、様々な解像度の動画コンテンツを生成できます。

モデル特徴

マルチ解像度対応

256x256から1024x1024までの任意の解像度で動画生成をサポート

クロスプラットフォーム互換

Windows/LinuxシステムおよびAlibaba Cloud DSW/Dockerデプロイに対応

拡張トレーニング機能

カスタムベースモデルとLoraモデルのトレーニングをサポートし、スタイル変換を実現

モデル能力

テキストから動画生成

画像から動画生成

カスタムモデルトレーニング

高解像度動画生成

使用事例

クリエイティブコンテンツ生成

ショート動画制作

テキスト説明に基づいてクリエイティブなショート動画を自動生成

6秒8fpsの動画（例はドキュメント参照）

映像制作補助

コンセプトプレビュー生成

映像シーンのコンセプトプレビュー動画を迅速に生成

768/1024解像度の高精細動画

🚀 CogVideoX-Fun

😊 ようこそ！

このモデルは、CogVideoX構造を改良したpipelineで、生成条件がより自由なCogVideoXです。AI画像とビデオの生成、Diffusion TransformerのベースラインモデルとLoraモデルのトレーニングに使用できます。学習済みのCogVideoX-Funモデルから直接予測を行い、さまざまな解像度で6秒程度、fps8のビデオ（1～49フレーム）を生成することもできます。また、ユーザー自身でベースラインモデルとLoraモデルをトレーニングし、一定のスタイル変換を行うこともサポートしています。

🚀 クイックスタート

1. クラウドでの使用: AliyunDSW/Docker

a. 阿里云DSWを通じて

DSWには無料のGPU使用時間があり、ユーザーは一度申請することができ、申請後3か月間有効です。

阿里云はFreetierで無料のGPU使用時間を提供しており、これを取得して阿里云PAI-DSWで使用すると、5分以内にCogVideoX-Funを起動することができます。

b. ComfyUIを通じて

ComfyUIのインターフェイスは以下の通りです。詳細はComfyUI READMEをご覧ください。 workflow graph

c. Dockerを通じて

Dockerを使用する場合は、マシンに正しくGPUドライバとCUDA環境がインストールされていることを確認してから、以下のコマンドを順に実行してください。

# イメージをプルする
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun

# イメージに入る
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun

# コードをクローンする
git clone https://github.com/aigc-apps/CogVideoX-Fun.git

# CogVideoX-Funのディレクトリに入る
cd CogVideoX-Fun

# 重みをダウンロードする
mkdir models/Diffusion_Transformer
mkdir models/Personalized_Model

wget https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/cogvideox_fun/Diffusion_Transformer/CogVideoX-Fun-2b-InP.tar.gz -O models/Diffusion_Transformer/CogVideoX-Fun-2b-InP.tar.gz

cd models/Diffusion_Transformer/
tar -xvf CogVideoX-Fun-2b-InP.tar.gz
cd ../../

2. ローカルインストール: 環境チェック/ダウンロード/インストール

a. 環境チェック

CogVideoX-Funは以下の環境で実行できることを確認しています。

Windowsの詳細情報：

オペレーティングシステム: Windows 10
python: python3.10 & python3.11
pytorch: torch2.2.0
CUDA: 11.8 & 12.1
CUDNN: 8+
GPU: Nvidia-3060 12G & Nvidia-3090 24G

Linuxの詳細情報：

オペレーティングシステム: Ubuntu 20.04, CentOS
python: python3.10 & python3.11
pytorch: torch2.2.0
CUDA: 11.8 & 12.1
CUDNN: 8+
GPU: Nvidia-V100 16G & Nvidia-A10 24G & Nvidia-A100 40G & Nvidia-A100 80G

約60GBの空きディスク容量が必要ですので、ご確認ください。

b. 重みの配置

重みを指定されたパスに配置することをおすすめします。

📦 models/
├── 📂 Diffusion_Transformer/
│   ├── 📂 CogVideoX-Fun-2b-InP/
│   └── 📂 CogVideoX-Fun-5b-InP/
├── 📂 Personalized_Model/
│   └── トレーニングしたトランスフォーマーモデル / トレーニングしたloraモデル (UIロード用)

✨ 主な機能

CogVideoX-Funは、CogVideoX構造を改良したpipelineで、以下の機能を提供しています。

AI画像とビデオの生成
Diffusion TransformerのベースラインモデルとLoraモデルのトレーニング
学習済みのCogVideoX-Funモデルからの直接予測
さまざまな解像度で6秒程度、fps8のビデオ（1～49フレーム）の生成
ユーザー自身によるベースラインモデルとLoraモデルのトレーニングとスタイル変換

新機能：

コードの作成！現在、WindowsとLinuxをサポートしています。2bと5bで、最大256x256x49から1024x1024x49の任意の解像度のビデオ生成をサポートしています。[ 2024.09.18 ]

機能の概要：

データ前処理
DiTのトレーニング
モデル生成

UIインターフェイスは以下の通りです。

📦 インストール

上述の「クイックスタート」セクションを参照して、クラウドまたはローカルでのインストールを行ってください。

💻 使用例

1. 生成

a. ビデオ生成

i、Pythonファイルを実行する

ステップ1：対応する重みをダウンロードして、modelsフォルダに配置します。
ステップ2：predict_t2v.pyファイルで、prompt、neg_prompt、guidance_scale、seedを変更します。
ステップ3：predict_t2v.pyファイルを実行し、生成結果を待ちます。結果はsamples/cogvideox-fun-videos-t2vフォルダに保存されます。
ステップ4：独自にトレーニングした他のバックボーンとLoraを組み合わせる場合は、predict_t2v.pyのpredict_t2v.pyとlora_pathを適宜変更します。

ii、UIインターフェイスを通じて

ステップ1：対応する重みをダウンロードして、modelsフォルダに配置します。
ステップ2：app.pyファイルを実行し、gradioページにアクセスします。
ステップ3：ページで生成モデルを選択し、prompt、neg_prompt、guidance_scale、seedなどを入力して、生成をクリックし、生成結果を待ちます。結果はsampleフォルダに保存されます。

iii、ComfyUIを通じて

詳細はComfyUI READMEをご覧ください。

2. モデルトレーニング

完全なCogVideoX-Funトレーニングパイプラインには、データ前処理とVideo DiTトレーニングが含まれます。

a. データ前処理

画像データを使用してloraモデルをトレーニングする簡単なデモを提供しています。詳細はwikiを参照してください。

完全な長時間ビデオの分割、クリーニング、記述のデータ前処理パイプラインは、video caption部分のREADMEを参照して行うことができます。

文章から画像ビデオを生成するモデルをトレーニングする場合は、データセットを以下の形式で配置する必要があります。

📦 project/
├── 📂 datasets/
│   ├── 📂 internal_datasets/
│       ├── 📂 train/
│       │   ├── 📄 00000001.mp4
│       │   ├── 📄 00000002.jpg
│       │   └── 📄 .....
│       └── 📄 json_of_internal_datasets.json

json_of_internal_datasets.jsonは標準的なJSONファイルです。JSON内のfile_pathは相対パスに設定することができます。例えば：

[
    {
      "file_path": "train/00000001.mp4",
      "text": "A group of young men in suits and sunglasses are walking down a city street.",
      "type": "video"
    },
    {
      "file_path": "train/00000002.jpg",
      "text": "A group of young men in suits and sunglasses are walking down a city street.",
      "type": "image"
    },
    .....
]

また、絶対パスに設定することもできます。

[
    {
      "file_path": "/mnt/data/videos/00000001.mp4",
      "text": "A group of young men in suits and sunglasses are walking down a city street.",
      "type": "video"
    },
    {
      "file_path": "/mnt/data/train/00000001.jpg",
      "text": "A group of young men in suits and sunglasses are walking down a city street.",
      "type": "image"
    },
    .....
]

b. Video DiTトレーニング

データ前処理でデータの形式が相対パスの場合は、scripts/train.shに以下の設定を行います。

export DATASET_NAME="datasets/internal_datasets/"
export DATASET_META_NAME="datasets/internal_datasets/json_of_internal_datasets.json"

...

train_data_format="normal"

データの形式が絶対パスの場合は、scripts/train.shに以下の設定を行います。

export DATASET_NAME=""
export DATASET_META_NAME="/mnt/data/json_of_internal_datasets.json"

最後に、scripts/train.shを実行します。

sh scripts/train.sh

いくつかのパラメータの設定詳細については、Readme TrainとReadme Loraを参照してください。

📚 ドキュメント

ビデオ作品

展示されている結果はすべて画像からビデオを生成したものです。

CogVideoX-Fun-5B

解像度1024

解像度768

解像度512

CogVideoX-Fun-2B

解像度768

モデルアドレス

名称	ストレージ容量	Hugging Face	Model Scope	説明
CogVideoX-Fun-2b-InP.tar.gz	解凍前9.7 GB / 解凍後13.0 GB	🤗Link	😄Link	公式の画像からビデオを生成する重み。複数の解像度（512、768、1024、1280）のビデオ予測をサポートし、49フレーム、毎秒8フレームでトレーニングされています。
CogVideoX-Fun-5b-InP.tar.gz	解凍前16.0GB / 解凍後20.0 GB	🤗Link	😄Link	公式の画像からビデオを生成する重み。複数の解像度（512、768、1024、1280）のビデオ予測をサポートし、49フレーム、毎秒8フレームでトレーニングされています。