ltxv-gguf开源视频生成模型 - 支持文本、图像、视频生成视频任务

首页

Ltxv Gguf

由 calcuis 开发

基于Lightricks/LTX-Video模型的GGUF量化版本，支持文本生成视频、图像生成视频和视频生成视频任务

文本生成视频英语开源协议:其他 #文本生成视频 #GGUF量化 #fp8高效推理

下载量 7,378

发布时间 : 12/14/2024

模型简介

该模型是LTX-Video模型的优化版本，通过GGUF量化和fp8缩放技术实现高效视频生成。支持从文本、图像或现有视频生成高质量视频内容。

模型特点

GGUF量化

支持多种量化级别(q4_0、q8_0等)，平衡模型大小和生成质量

fp8缩放

采用fp8_e4m3fn格式，在保持质量的同时提高推理效率

多模态输入

支持文本、图像和视频作为输入源生成视频内容

硬件高效

提供多种量化版本适应不同硬件配置，包括低内存设备

模型能力

文本生成视频

图像生成视频

视频生成视频

高质量视频合成

多场景视频生成

使用案例

创意内容生成

自然场景生成

根据文本描述生成自然景观视频，如海浪拍打岩石的场景

生成具有真实感的海浪、岩石和光线效果

城市景观生成

生成城市建筑和环境的动态视频

创建具有透视和光影效果的城市景观

影视制作辅助

概念预览

快速生成影视场景的概念预览

帮助导演和制作团队可视化场景

🚀 GGUF量化和fp8缩放版本的LTX - Video

本项目提供了LTX - Video的GGUF量化和fp8缩放版本，可用于文本到视频、图像到视频、视频到视频等多种转换任务，为视频生成提供了更多选择和可能性。

🚀 快速开始

一次性设置

将ltx - video - 2b - v0.9.1 - r2 - q4_0.gguf（[1.09GB](https://huggingface.co/calcuis/ltxv - gguf/blob/main/ltx - video - 2b - v0.9.1 - r2 - q4_0.gguf)）拖到 > ./ComfyUI/models/diffusion_models
将t5xxl_fp16 - q4_0.gguf（[2.9GB](https://huggingface.co/calcuis/ltxv - gguf/blob/main/t5xxl_fp16 - q4_0.gguf)）拖到 > ./ComfyUI/models/text_encoders
将ltxv_vae_fp32 - f16.gguf（[838MB](https://huggingface.co/calcuis/ltxv - gguf/blob/main/ltxv_vae_fp32 - f16.gguf)）拖到 > ./ComfyUI/models/vae

直接运行（无需安装方式）

运行主目录中的.bat文件（假设你使用下面的gguf - node 包）
将工作流json文件（如下）拖到 > 你的浏览器

工作流

[gguf](https://huggingface.co/calcuis/ltxv - gguf/blob/main/workflow - ltxv - gguf.json)的示例工作流（见上面的演示）
原始[safetensors](https://huggingface.co/calcuis/ltxv - gguf/blob/main/workflow - ltxv - safetensors.json)的示例工作流

✨ 主要特性

支持多种输入类型，包括文本到视频、图像到视频、视频到视频。
提供了不同量化和缩放版本，可根据需求选择。
可以混合使用不同的模型文件和vae，测试最佳组合。
新增了一组增强的vae（从fp8到fp32），低内存版本的gguf vae也可直接使用。
支持使用diffusers🧨库和gguf - connector两种方式运行。

📦 安装指南

按照“快速开始”中的“一次性设置”步骤，将相应的文件拖到指定目录即可完成安装。

💻 使用示例

基础用法

使用diffusers🧨库运行的示例代码如下：

import torch
from transformers import T5EncoderModel
from diffusers import LTXPipeline, GGUFQuantizationConfig, LTXVideoTransformer3DModel
from diffusers.utils import export_to_video

model_path = (
    "https://huggingface.co/calcuis/ltxv-gguf/blob/main/ltx-video-2b-v0.9-q8_0.gguf"
    )
transformer = LTXVideoTransformer3DModel.from_single_file(
    model_path,
    quantization_config=GGUFQuantizationConfig(compute_dtype=torch.bfloat16),
    torch_dtype=torch.bfloat16,
    )

text_encoder = T5EncoderModel.from_pretrained(
    "calcuis/ltxv-gguf",
    gguf_file="t5xxl_fp16-q4_0.gguf",
    torch_dtype=torch.bfloat16,
    )

pipe = LTXPipeline.from_pretrained(
    "callgg/ltxv-decoder",
    text_encoder=text_encoder,
    transformer=transformer,
    torch_dtype=torch.bfloat16
    ).to("cuda")

prompt = "A woman with long brown hair and light skin smiles at another woman with long blonde hair. The woman with brown hair wears a black jacket and has a small, barely noticeable mole on her right cheek. The camera angle is a close-up, focused on the woman with brown hair's face. The lighting is warm and natural, likely from the setting sun, casting a soft glow on the scene. The scene appears to be real-life footage"
negative_prompt = "worst quality, inconsistent motion, blurry, jittery, distorted"

video = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    width=704,
    height=480,
    num_frames=25,
    num_inference_steps=50,
    ).frames[0]
export_to_video(video, "output.mp4", fps=24)

高级用法

使用gguf - connector运行：

直接在控制台/终端执行以下命令：

ggc vg

此命令用于文本到视频（t2v）面板。

对于图像 - 文本到视频（i2v）面板，请执行：

ggc v1

📚 详细文档

评测

q2_k gguf速度非常快，但不可用；仅用于测试。
令人惊讶的是，0.9_fp8_e4m3fn和0.9 - vae_fp8_e4m3fn效果相当不错。
可以混合搭配使用不同的模型文件和vae，测试最佳组合。
可以选择使用t5xxl缩放的safetensors或t5xxl gguf（更多t5xxl的量化版本可在这里找到）作为文本编码器。
此包中新增了一组增强的vae（从fp8到fp32）；低内存版本的gguf vae也可直接使用；为新功能升级你的节点：gguf vae loader。
gguf - node可用（详情见这里），用于运行新功能（以下要点可能与模型没有直接关系）。
你可以使用新节点通过comfyui制作自己的fp8_e4m3fn缩放的safetensors和/或将其转换为gguf。