Cogvideox 2b
CogVideoXは清影のビデオ生成モデルのオープンソース版で、2Bバージョンは入門モデルとして互換性と実行・二次開発コストのバランスが取れています。
ダウンロード数 22
リリース時間 : 9/9/2024
モデル概要
CogVideoXはテキストから動画を生成する拡散モデルで、テキスト記述に基づき6秒間、8fps、720x480解像度の動画を生成できます。
モデル特徴
低VRAM要件
複数量化方式をサポートし、最小3.6GB VRAMのGPUで動作可能
マルチ精度サポート
FP16、BF16、FP32、FP8、INT8など多様な推論精度に対応
最適化推論
diffusersライブラリを通じて様々なVRAM最適化ソリューションを提供し、異なるハードウェア環境に適応
モデル能力
テキストから動画生成
動画コンテンツ制作
クリエイティブコンテンツ生成
使用事例
クリエイティブコンテンツ制作
アニメーションショート制作
テキスト記述に基づくクリエイティブなアニメーションショートを生成
6秒間、8fpsの720x480解像度動画を生成可能
広告クリエイティブ生成
製品紹介動画のアイデアを迅速に生成
教育
教育動画生成
教育内容に基づく補助動画を生成
🚀 CogVideoX-2B
CogVideoX-2Bは、ビデオ生成モデルです。入門レベルのモデルで、互換性を考慮しています。実行や二次開発のコストが低く、さまざまなシーンでの利用に適しています。
📄 中文で読む | 🤗 Huggingface Space | 🌐 Github | 📜 arxiv
📍 QingYing と API Platform を訪問して、商用ビデオ生成モデルを体験してください。
🎥 デモ展示
細かく彫られたマストと帆を持つ詳細な木製のおもちゃの船が、海の波を模したパラパラした青いカーペットの上を滑らかに滑っているのが見られます。船の船体は濃い茶色に塗られ、小さな窓があります。柔らかく質感のあるカーペットは、海の広がりを思わせる完璧な背景を提供します。船の周りには、他のさまざまなおもちゃや子供向けのアイテムがあり、遊び心溢れる環境を暗示しています。このシーンは、子供の無邪気さと想像力を捉えており、おもちゃの船の旅は、幻想的な屋内空間での無限の冒険を象徴しています。
カメラは、黒いルーフラックを備えた白いヴィンテージSUVの後ろを追い、急な山腹にある松の木に囲まれた急な未舗装道路を加速していきます。タイヤから塵が舞い上がり、SUVが未舗装道路を疾走するとき、日光が当たり、シーンに暖かい輝きを投げかけます。未舗装道路は緩やかに遠くへと曲がり、目には他の車や車両は見えません。道路の両側の木はレッドウッドで、至る所に緑の茂みが散らばっています。車は後ろから見ると、曲がり角を楽々と曲がっているように見え、荒れた地形を走っているかのような印象を与えます。未舗装道路自体は急な丘や山に囲まれ、上には薄い雲が漂う澄んだ青い空が広がっています。
古着のデニムジャケットとカラフルなバンダナを着た路上アーティストが、中心部の広大なコンクリート壁の前に立ち、スプレー缶を持って、斑点のある壁にカラフルな鳥を描いています。
戦争に襲われた都市の不気味な背景の中、廃墟と崩れた壁が荒廃の物語を語っている中、切ないクローズアップで若い少女が捉えられています。彼女の顔には灰がまみれており、周りの混乱の無言の証です。彼女の目は悲しみと強さの混ざった輝きを放ち、紛争の荒波に無邪気さを失った世界の生々しい感情を捉えています。
📖 モデル紹介
CogVideoXは、QingYing を起源とするビデオ生成モデルのオープンソースバージョンです。以下の表に、現在提供しているビデオ生成モデルのリストとその基本情報を示します。
モデル名 | CogVideoX-2B (このリポジトリ) | CogVideoX-5B |
---|---|---|
モデルの説明 | 入門レベルのモデルで、互換性を考慮しています。実行や二次開発のコストが低い。 | より大きなモデルで、ビデオ生成品質が高く、視覚効果が良好。 |
推論精度 | FP16* (推奨), BF16, FP32, FP8*, INT8, INT4はサポートしない | BF16 (推奨), FP16, FP32, FP8*, INT8, INT4はサポートしない |
単一GPU VRAM消費量 | SAT FP16: 18GB diffusers FP16: 4GBから* diffusers INT8(torchao): 3.6GBから* |
SAT BF16: 26GB diffusers BF16: 5GBから* diffusers INT8(torchao): 4.4GBから* |
マルチGPU推論VRAM消費量 | FP16: diffusersを使用して10GB* | BF16: diffusersを使用して15GB* |
推論速度 (Step = 50, FP/BF16) |
単一A100: ~90秒 単一H100: ~45秒 |
単一A100: ~180秒 単一H100: ~90秒 |
微調整精度 | FP16 | BF16 |
微調整VRAM消費量 (GPUあたり) | 47 GB (bs=1, LORA) 61 GB (bs=2, LORA) 62GB (bs=1, SFT) |
63 GB (bs=1, LORA) 80 GB (bs=2, LORA) 75GB (bs=1, SFT) |
プロンプト言語 | 英語* | 英語* |
プロンプト長制限 | 226トークン | 226トークン |
ビデオ長 | 6秒 | 6秒 |
フレームレート | 1秒あたり8フレーム | 1秒あたり8フレーム |
ビデオ解像度 | 720 x 480、他の解像度はサポートしない (微調整を含む) | 720 x 480、他の解像度はサポートしない (微調整を含む) |
位置符号化 | 3d_sincos_pos_embed | 3d_rope_pos_embed |
データ説明
diffusers
ライブラリを使用してテストする場合、diffusers
ライブラリが提供するすべての最適化が有効になります。このソリューションは、NVIDIA A100 / H100 以外のデバイスでの実際のVRAM/メモリ使用量についてはテストされていません。一般的に、このソリューションは NVIDIA Ampereアーキテクチャ 以上のすべてのデバイスに適応できます。最適化を無効にすると、VRAM使用量が大幅に増加し、ピークVRAM使用量は表に示されている値の約3倍になります。ただし、速度は3 - 4倍になります。一部の最適化を選択的に無効にすることができます。以下のコードを参照してください。
pipe.enable_model_cpu_offload()
pipe.enable_sequential_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()
- マルチGPU推論を行う場合、
enable_model_cpu_offload()
最適化を無効にする必要があります。 - INT8モデルを使用すると、推論速度が低下します。これは、VRAMが少ないGPUでも推論を正常に行えるようにするためで、ビデオ品質の損失を最小限に抑えつつ、推論速度は大幅に低下します。
- 2Bモデルは
FP16
精度で学習され、5BモデルはBF16
精度で学習されています。推論には、モデルが学習された精度を使用することをお勧めします。 - PytorchAO と Optimum-quanto を使用して、テキストエンコーダ、Transformer、VAEモジュールを量子化し、CogVideoXのメモリ要件を削減することができます。これにより、無料のT4 ColabやVRAMが小さいGPUでもモデルを実行できるようになります!また、TorchAO量子化は
torch.compile
と完全に互換性があり、推論速度を大幅に向上させることができます。FP8
精度はNVIDIA H100
以上のデバイスでのみ使用でき、torch
、torchao
、diffusers
、accelerate
のPythonパッケージをソースからインストールする必要があります。CUDA 12.4
が推奨されます。 - 推論速度テストでも上記のVRAM最適化スキームを使用しました。VRAM最適化を行わない場合、推論速度は約10%向上します。量子化は
diffusers
バージョンのモデルのみがサポートしています。 - モデルは英語入力のみをサポートしています。他の言語は、大規模モデルによって英語に翻訳してから入力することができます。
注意事項
- SAT を使用して、SATバージョンのモデルの推論と微調整を行ってください。詳細については、GitHubをご覧ください。
🚀 クイックスタート
このモデルは、huggingface diffusersライブラリを使用したデプロイをサポートしています。以下の手順に従ってデプロイできます。
GitHub を訪問し、関連するプロンプトの最適化と変換を確認することをお勧めします。これにより、より良い体験が得られます。
1. 必要な依存関係をインストールする
# diffusers>=0.30.1
# transformers>=0.44.0
# accelerate>=0.33.0 (ソースからのインストールを推奨)
# imageio-ffmpeg>=0.5.1
pip install --upgrade transformers accelerate diffusers imageio-ffmpeg
2. コードを実行する
import torch
from diffusers import CogVideoXPipeline
from diffusers.utils import export_to_video
prompt = "A panda, dressed in a small, red jacket and a tiny hat, sits on a wooden stool in a serene bamboo forest. The panda's fluffy paws strum a miniature acoustic guitar, producing soft, melodic tunes. Nearby, a few other pandas gather, watching curiously and some clapping in rhythm. Sunlight filters through the tall bamboo, casting a gentle glow on the scene. The panda's face is expressive, showing concentration and joy as it plays. The background includes a small, flowing stream and vibrant green foliage, enhancing the peaceful and magical atmosphere of this unique musical performance."
pipe = CogVideoXPipeline.from_pretrained(
"THUDM/CogVideoX-2b",
torch_dtype=torch.float16
)
pipe.enable_model_cpu_offload()
pipe.enable_sequential_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()
video = pipe(
prompt=prompt,
num_videos_per_prompt=1,
num_inference_steps=50,
num_frames=49,
guidance_scale=6,
generator=torch.Generator(device="cuda").manual_seed(42),
).frames[0]
export_to_video(video, "output.mp4", fps=8)
💪 量子化推論
PytorchAO と Optimum-quanto を使用して、テキストエンコーダ、Transformer、VAEモジュールを量子化し、CogVideoXのメモリ要件を削減することができます。これにより、無料のT4 ColabやVRAMが小さいGPUでもモデルを実行できるようになります!また、TorchAO量子化は torch.compile
と完全に互換性があり、推論速度を大幅に向上させることができます。
# 始めるには、PytorchAOをGitHubソースからインストールし、PyTorch Nightlyを使用する必要があります。
# 次のリリースまでは、ソースとナイトリー版のインストールが必要です。
import torch
from diffusers import AutoencoderKLCogVideoX, CogVideoXTransformer3DModel, CogVideoXPipeline
from diffusers.utils import export_to_video
+ from transformers import T5EncoderModel
+ from torchao.quantization import quantize_, int8_weight_only, int8_dynamic_activation_int8_weight
+ quantization = int8_weight_only
+ text_encoder = T5EncoderModel.from_pretrained("THUDM/CogVideoX-5b", subfolder="text_encoder", torch_dtype=torch.bfloat16)
+ quantize_(text_encoder, quantization())
+ transformer = CogVideoXTransformer3DModel.from_pretrained("THUDM/CogVideoX-5b", subfolder="transformer", torch_dtype=torch.bfloat16)
+ quantize_(transformer, quantization())
+ vae = AutoencoderKLCogVideoX.from_pretrained("THUDM/CogVideoX-2b", subfolder="vae", torch_dtype=torch.bfloat16)
+ quantize_(vae, quantization())
# パイプラインを作成し、推論を実行する
pipe = CogVideoXPipeline.from_pretrained(
"THUDM/CogVideoX-2b",
+ text_encoder=text_encoder,
+ transformer=transformer,
+ vae=vae,
torch_dtype=torch.bfloat16,
)
pipe.enable_model_cpu_offload()
pipe.vae.enable_tiling()
prompt = "A panda, dressed in a small, red jacket and a tiny hat, sits on a wooden stool in a serene bamboo forest. The panda's fluffy paws strum a miniature acoustic guitar, producing soft, melodic tunes. Nearby, a few other pandas gather, watching curiously and some clapping in rhythm. Sunlight filters through the tall bamboo, casting a gentle glow on the scene. The panda's face is expressive, showing concentration and joy as it plays. The background includes a small, flowing stream and vibrant green foliage, enhancing the peaceful and magical atmosphere of this unique musical performance."
video = pipe(
prompt=prompt,
num_videos_per_prompt=1,
num_inference_steps=50,
num_frames=49,
guidance_scale=6,
generator=torch.Generator(device="cuda").manual_seed(42),
).frames[0]
export_to_video(video, "output.mp4", fps=8)
📄 ライセンス
このプロジェクトは、Apache-2.0ライセンスの下で公開されています。
Xclip Base Patch32
MIT
X-CLIPはCLIPの拡張版で、汎用ビデオ言語理解のために(ビデオ、テキスト)ペアで対照学習を行い、ビデオ分類やビデオ-テキスト検索などのタスクに適しています。
テキスト生成ビデオ
Transformers 英語

X
microsoft
309.80k
84
LTX Video
その他
DiTベースの初の動画生成モデルで、高品質な動画をリアルタイムに生成可能。テキストから動画、画像+テキストから動画の2つのシナリオに対応。
テキスト生成ビデオ 英語
L
Lightricks
165.42k
1,174
Wan2.1 14B VACE GGUF
Apache-2.0
Wan2.1-VACE-14BモデルのGGUF形式のバージョンで、主にテキストからビデオの生成タスクに使用されます。
テキスト生成ビデオ
W
QuantStack
146.36k
139
Animatediff Lightning
Openrail
超高速テキスト生成動画モデル、生成速度はオリジナルAnimateDiffの10倍以上
テキスト生成ビデオ
A
ByteDance
144.00k
925
V Express
V-Expressは、オーディオと顔のキーポイント条件に基づいて生成されるビデオ生成モデルで、オーディオ入力を動的なビデオ出力に変換できます。
テキスト生成ビデオ 英語
V
tk93
118.36k
85
Cogvideox 5b
その他
CogVideoXは清影に由来する動画生成モデルのオープンソース版で、高品質な動画生成能力を提供します。
テキスト生成ビデオ 英語
C
THUDM
92.32k
611
Llava NeXT Video 7B Hf
LLaVA-NeXT-Videoはオープンソースのマルチモーダルチャットボットで、動画と画像データの混合トレーニングにより優れた動画理解能力を獲得し、VideoMMEベンチマークでオープンソースモデルのSOTAレベルを達成しました。
テキスト生成ビデオ
Transformers 英語

L
llava-hf
65.95k
88
Wan2.1 T2V 14B Diffusers
Apache-2.0
万2.1は、動画生成の境界を突破することを目的とした包括的なオープンな動画基盤モデルで、中英テキストから動画生成、画像から動画生成など様々なタスクをサポートします。
テキスト生成ビデオ 複数言語対応
W
Wan-AI
48.65k
24
Wan2.1 T2V 1.3B Diffusers
Apache-2.0
万2.1は包括的に開放されたビデオ基盤モデルで、トップクラスの性能、コンシューマー向けGPUサポート、マルチタスク対応、視覚テキスト生成、高効率ビデオVAEなどの特徴を備えています。
テキスト生成ビデオ 複数言語対応
W
Wan-AI
45.29k
38
Wan2.1 T2V 14B
Apache-2.0
万2.1は包括的なオープンソース動画基盤モデルで、テキストから動画生成、画像から動画生成、動画編集、テキストから画像生成、動画から音声生成など多様なタスクに対応し、日中バイリンガルのテキスト生成をサポートします。
テキスト生成ビデオ 複数言語対応
W
Wan-AI
44.88k
1,238
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98