ltxv-ggufオープンソースビデオ生成モデル - テキスト、画像、ビデオによるビデオ生成タスクをサポート

ホーム

Ltxv Gguf

calcuisによって開発

Lightricks/LTX-Videoモデルを基にしたGGUF量子化バージョンで、テキストから動画生成、画像から動画生成、動画から動画生成のタスクをサポート

テキスト生成ビデオ英語オープンソースライセンス:その他 #テキストから動画生成 #GGUF量子化 #fp8効率的推論

ダウンロード数 7,378

リリース時間 : 12/14/2024

モデル概要

このモデルはLTX-Videoモデルの最適化版で、GGUF量子化とfp8スケーリング技術により効率的な動画生成を実現。テキスト、画像、既存の動画から高品質な動画コンテンツを生成可能。

モデル特徴

GGUF量子化

複数の量子化レベル(q4_0、q8_0など)をサポートし、モデルサイズと生成品質のバランスを実現

fp8スケーリング

fp8_e4m3fnフォーマットを採用し、品質を維持しながら推論効率を向上

マルチモーダル入力

テキスト、画像、動画を入力ソースとして動画コンテンツを生成可能

ハードウェア効率

様々なハードウェア構成に対応する複数量子化バージョンを提供、低メモリデバイスも含む

モデル能力

テキストから動画生成

画像から動画生成

動画から動画生成

高品質動画合成

マルチシーン動画生成

使用事例

クリエイティブコンテンツ生成

自然景観生成

テキスト記述に基づき自然景観動画を生成、例えば岩に打ち寄せる波のシーン

リアルな波、岩、光の効果を持つ動画を生成

都市景観生成

都市建築と環境のダイナミックな動画を生成

遠近法と光陰効果を持つ都市景観を作成

映像制作支援

コンセプトプレビュー

映像シーンのコンセプトプレビューを迅速に生成

監督と制作チームがシーンを可視化するのを支援

🚀 LTX-VideoのGGUF量子化およびfp8スケーリングバージョン

スクリーンショット

🚀 クイックスタート

セットアップ（一度だけ）

ltx-video-2b-v0.9.1-r2-q4_0.gguf (1.09GB) を > ./ComfyUI/models/diffusion_models にドラッグします。
t5xxl_fp16-q4_0.gguf (2.9GB) を > ./ComfyUI/models/text_encoders にドラッグします。
ltxv_vae_fp32-f16.gguf (838MB) を > ./ComfyUI/models/vae にドラッグします。

直接実行（インストール不要な方法）

メインディレクトリの .bat ファイルを実行します（以下の gguf-node パックを使用していると仮定します）。
ワークフローのJSONファイル（以下）を > ブラウザにドラッグします。

ワークフロー

gguf のワークフロー例（上記のデモ参照）
元の safetensors のワークフロー例

レビュー

q2_k gguf は非常に高速ですが、使用できません。テストのみに留めてください。
意外なことに、0.9_fp8_e4m3fn と 0.9-vae_fp8_e4m3fn はかなり良好に動作します。
混合使用が可能です。ここで利用可能な vae と異なるモデルファイルを組み合わせることができます。どの組み合わせが最適かをテストしてください。
テキストエンコーダとして、t5xxl スケールの safetensors または t5xxl gguf を選択できます（t5xxl のより多くの量子化バージョンはこちらで見つけることができます）。
このパックには、新しいセットの 拡張 vae（fp8 から fp32）が追加されています。低RAMバージョンの gguf vae もすぐに利用できます。新機能の gguf vae loader 用にノードをアップグレードしてください。
gguf-node が利用可能です（詳細はこちらを参照）。新機能を実行するためのものです（以下のポイントはモデルに直接関係していない場合があります）。
新しいノードを介して、独自の fp8_e4m3fn スケールの safetensors を作成し、gguf に変換することができます。

diffusers🧨 で実行（代替方法1）

import torch
from transformers import T5EncoderModel
from diffusers import LTXPipeline, GGUFQuantizationConfig, LTXVideoTransformer3DModel
from diffusers.utils import export_to_video

model_path = (
    "https://huggingface.co/calcuis/ltxv-gguf/blob/main/ltx-video-2b-v0.9-q8_0.gguf"
    )
transformer = LTXVideoTransformer3DModel.from_single_file(
    model_path,
    quantization_config=GGUFQuantizationConfig(compute_dtype=torch.bfloat16),
    torch_dtype=torch.bfloat16,
    )

text_encoder = T5EncoderModel.from_pretrained(
    "calcuis/ltxv-gguf",
    gguf_file="t5xxl_fp16-q4_0.gguf",
    torch_dtype=torch.bfloat16,
    )

pipe = LTXPipeline.from_pretrained(
    "callgg/ltxv-decoder",
    text_encoder=text_encoder,
    transformer=transformer,
    torch_dtype=torch.bfloat16
    ).to("cuda")

prompt = "A woman with long brown hair and light skin smiles at another woman with long blonde hair. The woman with brown hair wears a black jacket and has a small, barely noticeable mole on her right cheek. The camera angle is a close-up, focused on the woman with brown hair's face. The lighting is warm and natural, likely from the setting sun, casting a soft glow on the scene. The scene appears to be real-life footage"
negative_prompt = "worst quality, inconsistent motion, blurry, jittery, distorted"

video = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    width=704,
    height=480,
    num_frames=25,
    num_inference_steps=50,
    ).frames[0]
export_to_video(video, "output.mp4", fps=24)

gguf-connector で実行（代替方法2）

コンソール/ターミナルで以下のコマンドを実行します。
注意: 初回起動時には、モデルファイルが自動的にローカルキャッシュに取得されます。その後、完全にオフラインで実行することができます。つまり、ローカルURL: http://127.0.0.1:7860 で lazy webui を使用できます。
ベースモデルを 0.9 から 0.9.6 蒸留版にアップグレードして、より良い結果を得ることができます。