🚀 Seba-AI-5B
Seba-AI-5Bは、高品質なビデオ生成を実現するモデルです。CogVideoXシリーズの一つで、多様なビデオ生成タスクに対応しています。
🚀 クイックスタート
このモデルはhuggingfaceのdiffusersライブラリを使用したデプロイをサポートしています。以下の手順に従ってデプロイできます。
💡 使用提案
より良い体験を得るために、GitHub を訪問し、関連するプロンプトの最適化と変換を確認することをおすすめします。
必要な依存関係をインストールします。
# diffusers>=0.30.1
# transformers>=4.44.2
# accelerate>=0.33.0 (ソースからのインストールを推奨)
# imageio-ffmpeg>=0.5.1
pip install --upgrade transformers accelerate diffusers imageio-ffmpeg
コードを実行します。
import torch
from diffusers import CogVideoXPipeline
from diffusers.utils import export_to_video
prompt = "A panda, dressed in a small, red jacket and a tiny hat, sits on a wooden stool in a serene bamboo forest. The panda's fluffy paws strum a miniature acoustic guitar, producing soft, melodic tunes. Nearby, a few other pandas gather, watching curiously and some clapping in rhythm. Sunlight filters through the tall bamboo, casting a gentle glow on the scene. The panda's face is expressive, showing concentration and joy as it plays. The background includes a small, f"
✨ 主な機能
高品質なビデオ生成が可能で、視覚的な効果が優れています。
複数の推論精度と量子化オプションをサポートしており、異なるハードウェア環境に対応します。
特定のハードウェアでのVRAM使用量を最適化し、低コストでの実行が可能です。
📚 ドキュメント
デモ展示
📄 Glitch Readme |
🤗 Glitch-Tech |
🌐 Hugging Fcae |
📍 Glitch H/F と API Platform を訪問して、商用ビデオ生成モデルを体験してください。
Video Gallery with Captions
花の間を蝶が舞い、庭が活気づきます。蝶の繊細な羽が下の花びらに影を落とします。背景には壮大な噴水が静かに水を流し、そのリズミカルな音が心地よい背景音になっています。大きな木の涼しい陰の下には、一人で座って考えることができる木製の椅子があり、その滑らかな表面は、自然の抱擁の中で静けさを求める無数の訪問者の手で磨かれています。
小さな男の子が、頭を下げ、決意を刻んだ顔で、遠くで稲妻が走り雷が鳴る中、激しい雨の中を疾走しています。止まない雨が地面を打ち、水しぶきが乱舞し、劇的な空の怒りを反映しています。遠い背景には、居心地の良い家のシルエットがあり、激しい天候の中で安全と暖かさのかすかな灯台のように招きます。このシーンは、子供が自然の要素に立ち向かう粘り強さと不屈の精神を表しています。
火星の赤い砂が靴に付着したスーツを着た宇宙飛行士が、4番目の惑星のピンクがかった空の下で、光る青い肌のエイリアンと握手します。背景には、人間の創造力の象徴であるスリムな銀色のロケットが背伸びして立っており、エンジンは停止しています。2人の異なる世界の代表が、火星の荒涼とした美しさの中で歴史的な挨拶を交わしています。
穏やかな表情をした年配の紳士が、水辺に座り、横には湯気を立てるお茶の杯があります。彼は手に筆を持ち、小さな風化したテーブルに立てかけたキャンバスに油絵を描いています。海風が彼の銀色の髪をなで、ゆるい白いシャツをなびかせながら、塩分を含んだ空気が彼の完成中の傑作に不可触知な要素を加えています。このシーンは、静けさとインスピレーションの場であり、画家のキャンバスには、静かな海に反射する夕日の鮮やかな色が捉えられています。
薄暗いバーで、紫色の光が中年男性の顔を照らし、彼は深く考えながら目を瞬きます。背景は巧みにぼかされ、彼の内省的な表情に焦点が合っています。バーの雰囲気は、影と柔らかい照明のわずかな暗示にすぎません。
スマートな黒いサングラスをかけた黄金色のレトリバーが、軽い雨で新鮮になった屋上テラスを楽しげに駆け回ります。このシーンは遠くから展開され、犬の元気な跳びは、カメラに近づくにつれて大きくなり、尻尾は自由奔放な喜びで揺れ、後ろのコンクリートには水滴が輝いています。曇った空が劇的な背景を提供し、犬が視聴者に向かって疾走する際に、その鮮やかな黄金色の毛並みを際立たせています。
晴れた日、湖岸には柳の木が並んでおり、その細い枝が柔らかい風にそよぐ。湖の静かな水面には青い空が映り、いくつかのエレガントな白鳥が静かな水の中を優雅に滑っています。湖の鏡のような表面を乱す繊細な波紋を残しています。このシーンは、静かな美しさの象徴であり、柳の緑が平和な鳥たちの訪問を絵のように囲んでいます。
淡い色のローブを着た中国人の母親が、ベビールームの穏やかな環境に置かれた居心地の良いロッキングチェアでゆっくりと揺れています。薄暗い寝室には、天井からぶら下がる不思議なモビールが飾られており、壁には影が踊っています。彼女の赤ちゃんは、繊細な柄の毛布に包まれて胸に抱かれており、母親の穏やかな声が赤ちゃんを眠りに誘うにつれて、赤ちゃんの以前の泣き声は満足した鳴き声に変わりました。空気にはラベンダーの香りが漂い、静けさを演出しています。近くのナイトライトからの暖かいオレンジ色の光が、このシーンに優しい色合いを与え、愛情と安らぎの一瞬を捉えています。
モデル紹介
CogVideoXは、QingYing に由来するビデオ生成モデルのオープンソースバージョンです。以下の表に、現在提供しているビデオ生成モデルのリストとその基本情報を示します。
モデル名
CogVideoX - 2B
CogVideoX - 5B (このリポジトリ)
モデル説明
エントリーレベルのモデルで、互換性を兼ね備えています。実行と二次開発のコストが低いです。
より大きなモデルで、より高いビデオ生成品質と優れた視覚効果を備えています。
推論精度
FP16* (推奨) 、BF16、FP32、FP8*、INT8、INT4はサポートしていません
BF16 (推奨) 、FP16、FP32、FP8*、INT8、INT4はサポートしていません
単一GPUのVRAM消費量
SAT FP16: 18GB diffusers FP16: 4GBから* diffusers INT8(torchao): 3.6GBから*
SAT BF16: 26GB diffusers BF16: 5GBから* diffusers INT8(torchao): 4.4GBから*
マルチGPU推論のVRAM消費量
FP16: diffusersを使用して10GB*
BF16: diffusersを使用して15GB*
推論速度 (Step = 50、FP/BF16)
単一A100: ~90秒 単一H100: ~45秒
単一A100: ~180秒 単一H100: ~90秒
ファインチューニング精度
FP16
BF16
ファインチューニングのVRAM消費量 (GPUごと)
47 GB (bs = 1、LORA) 61 GB (bs = 2、LORA) 62GB (bs = 1、SFT)
63 GB (bs = 1、LORA) 80 GB (bs = 2、LORA) 75GB (bs = 1、SFT)
プロンプト言語
英語*
英語*
プロンプト長制限
226トークン
226トークン
ビデオ長
6秒
6秒
フレームレート
1秒あたり8フレーム
1秒あたり8フレーム
ビデオ解像度
720 x 480、他の解像度はサポートしていません (ファインチューニングを含む)
720 x 480、他の解像度はサポートしていません (ファインチューニングを含む)
位置エンコーディング
3d_sincos_pos_embed
3d_rope_pos_embed
データ説明
diffusers
ライブラリを使用してテストする場合、diffusers
ライブラリが提供するすべての最適化を有効にします。このソリューションは、NVIDIA A100 / H100 以外のデバイスでの実際のVRAM/メモリ使用量についてはテストされていません。一般的に、このソリューションはNVIDIA Ampereアーキテクチャ 以上のすべてのデバイスに適応できます。最適化を無効にすると、VRAM使用量が大幅に増加し、ピークVRAM使用量は表に示されている値の約3倍になります。ただし、速度は3 - 4倍になります。一部の最適化を選択的に無効にすることができます。
pipe.enable_model_cpu_offload()
pipe.enable_sequential_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()
マルチGPU推論を行う場合、enable_model_cpu_offload()
最適化を無効にする必要があります。
INT8モデルを使用すると、推論速度が低下します。これは、VRAMが少ないGPUでも、最小限のビデオ品質の損失で正常に推論を行えるようにするためですが、推論速度は大幅に低下します。
2BモデルはFP16
精度でトレーニングされ、5BモデルはBF16
精度でトレーニングされています。推論には、モデルがトレーニングされた精度を使用することをおすすめします。
PytorchAO と[Optimum - quanto](https://github.com/huggingface/optimum - quanto/)を使用して、テキストエンコーダー、Transformer、VAEモジュールを量子化し、CogVideoXのメモリ要件を削減することができます。これにより、無料のT4 ColabやVRAMが少ないGPUでもモデルを実行できるようになります。TorchAO量子化はtorch.compile
と完全に互換性があり、推論速度を大幅に向上させることができることにも注意してください。FP8
精度は、NVIDIA H100
以上のデバイスでのみ使用でき、torch
、torchao
、diffusers
、accelerate
のPythonパッケージをソースからインストールする必要があります。CUDA 12.4
が推奨されます。
推論速度テストでも上記のVRAM最適化スキームを使用しました。VRAM最適化を行わない場合、推論速度は約10%向上します。diffusers
バージョンのモデルのみが量子化をサポートしています。
モデルは英語入力のみをサポートしています。他の言語は、大規模モデルによる改良時に英語に翻訳することができます。
注意事項
SAT を使用して、SATバージョンのモデルの推論とファインチューニングを行います。詳細については、GitHubをご覧ください。
📄 ライセンス
このプロジェクトは[MITライセンス](https://huggingface.co/THUDM/CogVideoX - 5b/blob/main/LICENSE)の下でライセンスされています。