Cogvideox 5b
CogVideoXは清影に由来する動画生成モデルのオープンソース版で、5Bバージョンはより大規模なモデルサイズを有し、より高品質な動画コンテンツを生成可能です。
ダウンロード数 13
リリース時間 : 8/28/2024
モデル概要
CogVideoXはテキストから動画を生成するモデルで、テキスト記述に基づき6秒間の720x480解像度、8fpsの動画を生成できます。
モデル特徴
高品質動画生成
5Bパラメータ規模により高品質な動画生成を実現
マルチ精度サポート
BF16、FP16、FP32、FP8、INT8など多様な推論精度に対応
VRAM使用量最適化
diffusersライブラリの最適化技術によりVRAM要求を低減
固定動画仕様
6秒間、720x480解像度、8fpsの動画を生成
モデル能力
テキストから動画生成
クリエイティブ動画制作
シーン可視化
使用事例
クリエイティブコンテンツ生成
アートシーン生成
詩的な記述に基づき芸術的な動画シーンを生成
庭園や豪雨などのシーンを鮮明に表現
ストーリー可視化
文章ストーリーを動画クリップに変換
宇宙飛行士とエイリアンの出会いなどのシーン
教育デモンストレーション
概念可視化
抽象的概念を直感的な動画に変換
🚀 CogVideoX-5B
CogVideoX-5Bは、テキストから高品質なビデオを生成することができるオープンソースのビデオ生成モデルです。このモデルは、多様なシーンやスタイルのビデオを生成し、ビデオ制作やエンターテイメントなどの分野での応用が期待されています。
📄 中文で読む | 🤗 Huggingface Space | 🌐 Github | 📜 arxiv
🎥 デモ展示
花の間を蝶が舞い、その繊細な羽が花びらに影を落とし、庭が活き返ります。背景には壮大な噴水が静かに水を流し、そのリズミカルな音が心地よい背景音となります。古木の下にある孤独な木製の椅子は、人々に静けさと反省の時間を誘います。その滑らかな表面は、自然の抱擁の中で静けさを求める無数の訪問者の手によって磨かれています。
小さな男の子が、頭を下げて決意を刻み、遠くで稲妻が走り雷が鳴る中、激しい雨の中を疾走します。降り注ぐ雨が地面に当たり、水しぶきが乱舞し、劇的な空の怒りを反映しています。遠い背景には、居心地の良い家のシルエットが安全と暖かさのかすかな灯台のように招きます。このシーンは、子供が厳しい自然に立ち向かう粘り強さと不屈の精神を表しています。
火星の赤い砂埃が靴に付着した宇宙服を着た宇宙飛行士が、4番目の惑星のピンクがかった空の下で、シマーする青い肌のエイリアンと握手します。背景には、人類の創造力の象徴であるスリムな銀色のロケットがそびえ立ち、エンジンを停止したまま、異なる世界の2人の代表が火星の荒涼とした美しさの中で歴史的な挨拶を交わします。
穏やかな表情を浮かべた年配の紳士が、水辺に座り、横には湯気を立てるお茶のカップが置かれています。彼は、手に筆を持ち、小さな風化したテーブルに立てかけたキャンバスに油絵を描いています。海風が彼の銀色の髪をなで、ゆるやかな白いシャツを揺らし、塩分を含んだ空気が彼の制作中の傑作に不可触知な要素を加えています。このシーンは、静けさとインスピレーションの場であり、画家のキャンバスには、穏やかな海に反射する夕日の鮮やかな色彩が捉えられています。
薄紫色の光が、薄暗いバーの中で成熟した男性の顔を照らしています。彼は深く考えながら目を瞬き、背景は彼の内省的な表情に焦点を合わせるために巧みにぼかされており、バーの雰囲気は影と柔らかい照明の僅かな暗示に過ぎません。
黒いスマートなサングラスをかけ、長い毛が風になびく黄金色のレトリバーが、小雨で濡れた屋上のテラスを楽しげに駆け回ります。シーンは遠くから展開され、犬の元気な跳躍がカメラに近づくにつれて大きくなり、尻尾を喜びに震わせながら、後ろのコンクリートには水滴が輝いています。曇った空が劇的な背景を提供し、犬が視聴者に向かって駆ける際に、その鮮やかな黄金色の毛並みが際立っています。
晴れた日、湖岸には柳の木が並び、その細い枝が柔らかい風にそよぎます。湖の静かな水面には青い空が映り、いくつかのエレガントな白鳥が静かな水の中を優雅に滑り、湖の鏡のような表面を乱す繊細な波紋を残します。このシーンは静かな美しさの象徴であり、柳の緑が平和な鳥たちの訪問を絵のように演出しています。
柔らかいパステル色のローブを着た中国の母親が、ベビールームの穏やかな環境に置かれた居心地の良いロッキングチェアでゆっくりと揺れています。薄暗い寝室には、天井からぶら下がる不思議なモビールが飾られ、壁に影が踊ります。彼女の赤ちゃんは、繊細な柄の毛布に包まれて胸に抱かれ、母親の穏やかな声が赤ちゃんを眠りに誘うにつれて、以前の泣き声は満足した鳴き声に変わります。空気にはラベンダーの香りが漂い、穏やかな雰囲気を演出しています。近くのナイトライトからの暖かいオレンジ色の光が、このシーンにやさしい色合いを与え、愛情と安らぎの一瞬を捉えています。
📚 モデル紹介
CogVideoXは、QingYingに由来するビデオ生成モデルのオープンソースバージョンです。以下の表に、現在提供しているビデオ生成モデルのリストとその基本情報を示します。
モデル名 | CogVideoX-2B | CogVideoX-5B (このリポジトリ) |
---|---|---|
モデル説明 | エントリーレベルのモデルで、互換性を考慮しています。実行と二次開発のコストが低いです。 | より大きなモデルで、ビデオ生成品質が高く、視覚効果が良好です。 |
推論精度 | FP16* (推奨)、BF16、FP32、FP8*、INT8、INT4はサポートしていません | BF16 (推奨)、FP16、FP32、FP8*、INT8、INT4はサポートしていません |
単一GPU VRAM消費量 | FP16: SATを使用して18GB / diffusersを使用して12.5GB* INT8: diffusersを使用して7.8GB* |
BF16: SATを使用して26GB / diffusersを使用して20.7GB* INT8: diffusersを使用して11.4GB* |
マルチGPU推論VRAM消費量 | FP16: diffusersを使用して10GB* | BF16: diffusersを使用して15GB* |
推論速度 (ステップ = 50、FP/BF16) |
単一A100: ~90秒 単一H100: ~45秒 |
単一A100: ~180秒 単一H100: ~90秒 |
微調整精度 | FP16 | BF16 |
微調整VRAM消費量 (GPUあたり) | 47 GB (bs=1, LORA) 61 GB (bs=2, LORA) 62GB (bs=1, SFT) |
63 GB (bs=1, LORA) 80 GB (bs=2, LORA) 75GB (bs=1, SFT) |
プロンプト言語 | 英語* | 英語* |
プロンプト長制限 | 226トークン | 226トークン |
ビデオ長 | 6秒 | 6秒 |
フレームレート | 1秒あたり8フレーム | 1秒あたり8フレーム |
ビデオ解像度 | 720 x 480、他の解像度はサポートしていません (微調整を含む) | 720 x 480、他の解像度はサポートしていません (微調整を含む) |
位置符号化 | 3d_sincos_pos_embed | 3d_rope_pos_embed |
データ説明
- diffusersライブラリでテストする際には、
enable_model_cpu_offload()
オプションとpipe.vae.enable_tiling()
最適化を有効にしました。このソリューションは、NVIDIA A100/H100以外のデバイスでの実際のVRAM/メモリ使用量についてはテストされていません。一般的に、このソリューションはNVIDIA Ampereアーキテクチャ以上のすべてのデバイスに適応できます。最適化を無効にすると、VRAM使用量が大幅に増加し、ピークVRAMは表の値の約3倍になります。 - マルチGPU推論を行う場合、
enable_model_cpu_offload()
最適化を無効にする必要があります。 - INT8モデルを使用すると、推論速度が低下します。これは、VRAMが少ないGPUに対応するために行われており、ビデオ品質の損失を最小限に抑えながら推論を適切に実行できますが、推論速度は大幅に低下します。
- 2Bモデルは
FP16
精度でトレーニングされており、5BモデルはBF16
精度でトレーニングされています。推論には、モデルのトレーニングに使用された精度を使用することをお勧めします。 FP8
精度はNVIDIA H100
以上のデバイスでのみ使用でき、torch
、torchao
、diffusers
、accelerate
のPythonパッケージをソースからインストールする必要があります。CUDA 12.4
が推奨されます。- 推論速度のテストでも、前述のVRAM最適化スキームを使用しました。VRAM最適化を行わない場合、推論速度は約10%向上します。
diffusers
を使用するモデルのみが量子化をサポートしています。 - モデルは英語入力のみをサポートしています。他の言語は大規模モデルの改良時に英語に翻訳することができます。
注意事項
- SATを使用して、SATバージョンのモデルの推論と微調整を行います。詳細については、GitHubをご覧ください。
🚀 クイックスタート
このモデルは、huggingface diffusersライブラリを使用したデプロイをサポートしています。以下の手順に従ってデプロイすることができます。
GitHubを訪問し、関連するプロンプトの最適化と変換を確認することをお勧めします。これにより、より良い体験を得ることができます。
- 必要な依存関係をインストールします。
# diffusers>=0.30.1
# transformers>=4.44.2
# accelerate>=0.33.0 (ソースからのインストールを推奨)
# imageio-ffmpeg>=0.5.1
pip install --upgrade transformers accelerate diffusers imageio-ffmpeg
- コードを実行します。
import torch
from diffusers import CogVideoXPipeline
from diffusers.utils import export_to_video
prompt = "A panda, dressed in a small, red jacket and a tiny hat, sits on a wooden stool in a serene bamboo forest. The panda's fluffy paws strum a miniature acoustic guitar, producing soft, melodic tunes. Nearby, a few other pandas gather, watching curiously and some clapping in rhythm. Sunlight filters through the tall bamboo, casting a gentle glow on the scene. The panda's face is expressive, showing concentration and joy as it plays. The background includes a small, flowing stream and vibrant green foliage, enhancing the peaceful and magical atmosphere of this unique musical performance."
pipe = CogVideoXPipeline.from_pretrained(
"THUDM/CogVideoX-5b",
torch_dtype=torch.bfloat16
)
pipe.enable_model_cpu_offload()
pipe.vae.enable_tiling()
video = pipe(
prompt=prompt,
num_videos_per_prompt=1,
num_inference_steps=50,
num_frames=49,
guidance_scale=6,
generator=torch.Generator(device="cuda").manual_seed(42),
).frames[0]
export_to_video(video, "output.mp4", fps=8)
🔍 モデルを探索する
githubをご覧ください。ここでは以下の内容を見つけることができます。
- より詳細な技術的な詳細とコードの説明。
- プロンプトの最適化と変換。
- SATバージョンのモデルの推論と微調整、さらにはプレリリース。
- プロジェクトの更新ログのダイナミクス、より多くのインタラクティブな機会。
- CogVideoに関するその他の情報。
📄 ライセンス
このプロジェクトは、こちらのライセンスの下で公開されています。
Xclip Base Patch32
MIT
X-CLIPはCLIPの拡張版で、汎用ビデオ言語理解のために(ビデオ、テキスト)ペアで対照学習を行い、ビデオ分類やビデオ-テキスト検索などのタスクに適しています。
テキスト生成ビデオ
Transformers 英語

X
microsoft
309.80k
84
LTX Video
その他
DiTベースの初の動画生成モデルで、高品質な動画をリアルタイムに生成可能。テキストから動画、画像+テキストから動画の2つのシナリオに対応。
テキスト生成ビデオ 英語
L
Lightricks
165.42k
1,174
Wan2.1 14B VACE GGUF
Apache-2.0
Wan2.1-VACE-14BモデルのGGUF形式のバージョンで、主にテキストからビデオの生成タスクに使用されます。
テキスト生成ビデオ
W
QuantStack
146.36k
139
Animatediff Lightning
Openrail
超高速テキスト生成動画モデル、生成速度はオリジナルAnimateDiffの10倍以上
テキスト生成ビデオ
A
ByteDance
144.00k
925
V Express
V-Expressは、オーディオと顔のキーポイント条件に基づいて生成されるビデオ生成モデルで、オーディオ入力を動的なビデオ出力に変換できます。
テキスト生成ビデオ 英語
V
tk93
118.36k
85
Cogvideox 5b
その他
CogVideoXは清影に由来する動画生成モデルのオープンソース版で、高品質な動画生成能力を提供します。
テキスト生成ビデオ 英語
C
THUDM
92.32k
611
Llava NeXT Video 7B Hf
LLaVA-NeXT-Videoはオープンソースのマルチモーダルチャットボットで、動画と画像データの混合トレーニングにより優れた動画理解能力を獲得し、VideoMMEベンチマークでオープンソースモデルのSOTAレベルを達成しました。
テキスト生成ビデオ
Transformers 英語

L
llava-hf
65.95k
88
Wan2.1 T2V 14B Diffusers
Apache-2.0
万2.1は、動画生成の境界を突破することを目的とした包括的なオープンな動画基盤モデルで、中英テキストから動画生成、画像から動画生成など様々なタスクをサポートします。
テキスト生成ビデオ 複数言語対応
W
Wan-AI
48.65k
24
Wan2.1 T2V 1.3B Diffusers
Apache-2.0
万2.1は包括的に開放されたビデオ基盤モデルで、トップクラスの性能、コンシューマー向けGPUサポート、マルチタスク対応、視覚テキスト生成、高効率ビデオVAEなどの特徴を備えています。
テキスト生成ビデオ 複数言語対応
W
Wan-AI
45.29k
38
Wan2.1 T2V 14B
Apache-2.0
万2.1は包括的なオープンソース動画基盤モデルで、テキストから動画生成、画像から動画生成、動画編集、テキストから画像生成、動画から音声生成など多様なタスクに対応し、日中バイリンガルのテキスト生成をサポートします。
テキスト生成ビデオ 複数言語対応
W
Wan-AI
44.88k
1,238
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98