LTX-Video-0.9.1开源视频生成模型 - 实时高质量，支持文转和图转视频

首页

LTX Video 0.9.1

由 Lightricks 开发

基于DiT架构的实时高质量视频生成模型，支持文本转视频及图像转视频两种应用场景

文本生成视频英语开源协议:其他 #实时高清视频生成 #DiT架构 #1216×704分辨率

下载量 64

发布时间 : 3/16/2025

模型简介

LTX视频是首个基于DiT架构的实时高质量视频生成模型，能以1216×704分辨率、30帧/秒的速度生成高分辨率且内容丰富的逼真视频。

模型特点

实时高质量视频生成

能以1216×704分辨率、30帧/秒的速度生成视频，速度甚至快于实时观看

多版本适配不同需求

提供2B/13B参数版本及蒸馏版本，平衡质量与性能需求

双模态输入支持

同时支持文本转视频(text-to-video)和图像转视频(image-to-video)两种生成方式

高分辨率输出

支持最高1216×704分辨率输出，在720×1280分辨率及257帧以下表现最佳

模型能力

文本转视频生成

图像转视频生成

高分辨率视频合成

实时视频渲染

使用案例

影视制作

影视场景预演

快速生成剧本描述的影视场景预览

示例展示监狱场景、城市街道等影视级画面

创意内容

动态视觉内容创作

根据文字描述生成创意短视频

示例包含自然景观、人物特写等多样化内容

🚀 LTX-Video模型卡片

LTX-Video是首个基于DiT的视频生成模型，能够实时生成高质量视频。它能以1216×704的分辨率、30 FPS的帧率生成视频，速度之快甚至超过观看速度。该模型在大规模多样化视频数据集上进行训练，可生成具有逼真且丰富内容的高分辨率视频。我们为文本到视频以及图像+文本到视频的用例都提供了相应模型。

🚀 快速开始

本模型可通过以下方式立即访问：

若要在ComfyUI中使用我们的模型，请遵循专用ComfyUI仓库中的说明。

✨ 主要特性

实时生成高质量视频，帧率达30 FPS，分辨率为1216×704。
在大规模多样化视频数据集上训练，生成的视频内容逼真且丰富。
支持文本到视频以及图像+文本到视频两种用例。

📦 安装指南

代码库在Python 3.10.5、CUDA版本12.2环境下进行了测试，支持PyTorch >= 2.1.2。

git clone https://github.com/Lightricks/LTX-Video.git
cd LTX-Video

# 创建虚拟环境
python -m venv env
source env/bin/activate
python -m pip install -e .\[inference-script\]

💻 使用示例

基础用法

在本地运行推理时，可参考以下代码：

文本到视频生成

python inference.py --prompt "PROMPT" --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED --pipeline_config ltxv-13b-0.9.7-dev.yaml

图像到视频生成

python inference.py --prompt "PROMPT" --input_image_path IMAGE_PATH --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED --pipeline_config ltxv-13b-0.9.7-dev.yaml

高级用法

使用Diffusers库进行视频生成：

import torch
from diffusers import LTXPipeline
from diffusers.utils import export_to_video

pipe = LTXPipeline.from_pretrained("Lightricks/LTX-Video", torch_dtype=torch.bfloat16)
pipe.to("cuda")

prompt = "A woman with long brown hair and light skin smiles at another woman with long blonde hair. The woman with brown hair wears a black jacket and has a small, barely noticeable mole on her right cheek. The camera angle is a close-up, focused on the woman with brown hair's face. The lighting is warm and natural, likely from the setting sun, casting a soft glow on the scene. The scene appears to be real-life footage"
negative_prompt = "worst quality, inconsistent motion, blurry, jittery, distorted"

video = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    width=704,
    height=480,
    num_frames=161,
    num_inference_steps=50,
).frames[0]
export_to_video(video, "output.mp4", fps=24)

图像到视频生成示例：

import torch
from diffusers import LTXImageToVideoPipeline
from diffusers.utils import export_to_video, load_image

pipe = LTXImageToVideoPipeline.from_pretrained("Lightricks/LTX-Video", torch_dtype=torch.bfloat16)
pipe.to("cuda")

image = load_image(
    "https://huggingface.co/datasets/a-r-r-o-w/tiny-meme-dataset-captioned/resolve/main/images/8.png"
)
prompt = "A young girl stands calmly in the foreground, looking directly at the camera, as a house fire rages in the background. Flames engulf the structure, with smoke billowing into the air. Firefighters in protective gear rush to the scene, a fire truck labeled '38' visible behind them. The girl's neutral expression contrasts sharply with the chaos of the fire, creating a poignant and emotionally charged scene."
negative_prompt = "worst quality, inconsistent motion, blurry, jittery, distorted"

video = pipe(
    image=image,
    prompt=prompt,
    negative_prompt=negative_prompt,
    width=704,
    height=480,
    num_frames=161,
    num_inference_steps=50,
).frames[0]
export_to_video(video, "output.mp4", fps=24)

更多信息请查看官方文档。Diffusers还支持使用from_single_file()方法直接从原始LTX检查点加载模型，更多内容请查看此部分。

📚 详细文档

模型信息

属性	详情
模型类型	基于扩散的文本到视频和图像到视频生成模型
开发方	Lightricks
语言	英语

模型使用许可

你可以在以下许可下使用该模型：

2B版本0.9：许可
2B版本0.9.1：许可
2B版本0.9.5：许可
2B版本0.9.6-dev：许可
2B版本0.9.6-distilled：许可
13B版本0.9.7-dev：许可
13B版本0.9.7-dev-fp8：许可
时间上采样器版本0.9.7：许可
空间上采样器版本0.9.7：许可

通用提示

模型适用于分辨率能被32整除、帧数能被8 + 1（例如257）整除的情况。若分辨率或帧数不能被32或8 + 1整除，输入将用 -1 填充，然后裁剪到所需的分辨率和帧数。
模型在分辨率低于720 x 1280、帧数少于257的情况下效果最佳。
提示词应为英语，越详细越好。一个好的提示词示例如下：The turquoise waves crash against the dark, jagged rocks of the shore, sending white foam spraying into the air. The scene is dominated by the stark contrast between the bright blue water and the dark, almost black rocks. The water is a clear, turquoise color, and the waves are capped with white foam. The rocks are dark and jagged, and they are covered in patches of green moss. The shore is lined with lush green vegetation, including trees and bushes. In the background, there are rolling hills covered in dense forest. The sky is cloudy, and the light is dim.

🔧 技术细节

本模型代码库可在此处获取。以下是不同版本模型的详细信息：

模型	版本	说明	inference.py配置	ComfyUI工作流（推荐）
ltxv - 13b	0.9.7	最高质量，需要更多VRAM	ltxv - 13b - 0.9.7 - dev.yaml	ltxv - 13b - i2v - base.json
ltxv - 13b - fp8	0.9.7	量化模型	即将推出	ltxv - 13b - i2v - base - fp8.json
ltxv - 2b	0.9.6	质量良好，比ltxv - 13b需要更少的VRAM	ltxv - 2b - 0.9.6 - dev.yaml	ltxvideo - i2v.json
ltxv - 2b - distilled	0.9.6	速度快15倍，支持实时生成，所需步骤更少，无需STG/CFG	ltxv - 2b - 0.9.6 - distilled.yaml	ltxvideo - i2v - distilled.json

📄 许可证

本模型使用其他许可证，具体许可信息可参考上述各版本模型的许可链接。

模型示例展示

示例动图


一位留着棕色长发、皮肤白皙的女子对着另一位留着金色长发的女子微笑…… 一位留着棕色长发、皮肤白皙的女子对着另一位留着金色长发的女子微笑。留棕色头发的女子穿着黑色夹克，右脸颊上有一颗小到几乎看不见的痣。相机视角为特写，聚焦在留棕色头发女子的脸上。光线温暖自然，可能来自夕阳，给场景披上了一层柔和的光芒。该场景看起来像是真实生活的镜头。	一名女子在夜晚从停在城市街道上的白色吉普车上走开…… 一名女子在夜晚从停在城市街道上的白色吉普车上走开，然后走上楼梯并敲门。这名女子穿着深色夹克和牛仔裤，背对着相机，从停在街道左侧的吉普车上走开；她步伐稳健，手臂在身体两侧微微摆动；街道灯光昏暗，路灯在潮湿的路面上投下一片片光亮；一名穿着深色夹克和牛仔裤的男子从相反方向走过吉普车；相机从后面跟随女子走上楼梯，朝着一扇绿色门的建筑走去；她到达楼梯顶部后向左转，继续朝着建筑走去；她走到门口，用右手敲门；相机保持静止，聚焦在门口；该场景是真实生活的镜头。	一位梳着发髻的金发女子，穿着黑色亮片连衣裙…… 一位梳着发髻的金发女子，穿着黑色亮片连衣裙，戴着珍珠耳环，脸上带着悲伤的表情低头。相机保持静止，聚焦在女子的脸上。光线昏暗，在她脸上投下柔和的阴影。该场景似乎来自电影或电视剧。	相机扫过一片被雪覆盖的山脉…… 相机扫过一片被雪覆盖的山脉，展现出一片广阔的雪山和山谷。山脉被厚厚的积雪覆盖，有些地方几乎呈白色，而有些地方则略带灰色调。山峰参差不齐，有的陡峭地伸向天空，有的则较为圆润。山谷又深又窄，陡峭的山坡也被雪覆盖。前景中的树木大多光秃秃的，只有少数树枝上还留着几片叶子。天空阴云密布，厚厚的云层遮住了太阳。整体给人一种宁静祥和的感觉，被雪覆盖的山脉见证了大自然的力量和美丽。
一位皮肤白皙的女子，穿着蓝色夹克和黑色带面纱的帽子…… 一位皮肤白皙的女子，穿着蓝色夹克和黑色带面纱的帽子，边说话边低头向右看，然后抬头。她留着棕色头发，梳成发髻，浅棕色眉毛，夹克里面穿着白色领口衬衫；她说话时相机一直对着她的脸；背景模糊，但能看到树木和穿着古装的人；该场景是真实生活的镜头。	一名男子在光线昏暗的房间里对着老式电话交谈…… 一名男子在光线昏暗的房间里对着老式电话交谈，挂断电话后悲伤地低头。他用右手将黑色旋转电话贴在右耳，左手拿着一个装有琥珀色液体的岩石杯。他穿着棕色西装外套，里面是白色衬衫，左手无名指上戴着一枚金戒指。他的短发梳理得很整齐，皮肤白皙，眼睛周围有明显的皱纹。相机保持静止，聚焦在他的脸和上半身。房间很暗，只有左边屏幕外的一个暖光源照亮，在他身后的墙上投下阴影。该场景似乎来自电影。	一名狱警打开牢房的门…… 一名狱警打开牢房的门，里面有一名年轻男子和一名女子坐在桌旁。狱警穿着深蓝色制服，左胸有徽章，用右手拿着钥匙打开牢房门并拉开；他留着棕色短发，皮肤白皙，表情平淡。年轻男子穿着黑白条纹衬衫，坐在铺着白色桌布的桌子旁，面向女子；他留着棕色短发，皮肤白皙，表情平淡。女子穿着深蓝色衬衫，坐在年轻男子对面，脸转向他；她留着金色短发，皮肤白皙。相机保持静止，从中间距离拍摄，位置略在狱警右侧。房间光线昏暗，一盏灯照亮了桌子和两个人物。墙壁由大块灰色混凝土块砌成，背景中可以看到一扇金属门。该场景是真实生活的镜头。	一位脸上有血迹、穿着白色背心的女子…… 一位脸上有血迹、穿着白色背心的女子边说话边低头向右看，然后抬头。她留着深色头发，向后梳起，皮肤白皙，脸和胸部都沾满了血。相机视角为特写，聚焦在女子的脸和上半身。光线昏暗，呈蓝色调，营造出一种忧郁而强烈的氛围。该场景似乎来自电影或电视剧。
一位头发花白、留着胡须、穿着灰色衬衫的男子…… 一位头发花白、留着胡须、穿着灰色衬衫的男子低头向右看，然后向左转头。相机视角为特写，聚焦在男子的脸上。光线昏暗，带有绿色色调。该场景看起来像是真实生活的镜头。	一条清澈的蓝绿色河流流经岩石峡谷…… 一条清澈的蓝绿色河流流经岩石峡谷，从一个小瀑布上倾泻而下，在底部形成一个水池。河流是场景的主要焦点，清澈的河水倒映着周围的树木和岩石。峡谷壁陡峭多石，上面生长着一些植被。树木大多是松树，绿色的针叶与棕色和灰色的岩石形成鲜明对比。整个场景给人一种宁静祥和的感觉。	一名穿着西装的男子进入房间并与两位坐在沙发上的女子交谈…… 一名穿着西装的男子进入房间并与两位坐在沙发上的女子交谈。这名男子穿着深色西装，系着金色领带，从左边进入房间，朝画面中心走去。他留着灰色短发，皮肤白皙，表情严肃。他走近沙发时，将右手放在椅子背上。背景中，两位女子坐在浅色沙发上。左边的女子穿着浅蓝色毛衣，留着金色短发。右边的女子穿着白色毛衣，留着金色短发。相机保持静止，聚焦在男子进入房间的过程。房间光线明亮，温暖的色调从墙壁和家具上反射出来。该场景似乎来自电影或电视剧。	海浪拍打着海岸线的锯齿状岩石…… 海浪拍打着海岸线的锯齿状岩石，激起高高的浪花。岩石呈深灰色，边缘锋利，有很深的裂缝。海水是清澈的蓝绿色，海浪拍打岩石的地方泛起白色泡沫。天空是浅灰色的，地平线上点缀着几朵白云。
相机扫过一座有圆形建筑的城市景观…… 相机从左到右扫过一座有圆形建筑的城市景观，展示了建筑物的顶部和中间的圆形建筑。建筑物有各种灰色和白色调，圆形建筑有绿色屋顶。相机视角较高，俯瞰着城市。光线明亮，太阳从左上方照射，建筑物投下阴影。该场景是计算机生成的图像。	一名男子走向窗户，向外张望，然后转身…… 一名男子走向窗户，向外张望，然后转身。他留着黑色短发，皮肤黝黑，穿着棕色外套，里面围着红灰色围巾。他从左向右走向窗户，目光盯着外面的某个东西。相机从后面以中等距离跟随他。房间光线明亮，白色墙壁和一扇被白色窗帘遮住的大窗户。当他走近窗户时，他微微向左转头，然后又向右转头。然后他整个身体向右转，面向窗户。相机在他站在窗户前时保持静止。该场景是真实生活的镜头。	两名穿着深蓝色制服和相配帽子的警察…… 两名穿着深蓝色制服和相配帽子的警察从画面左侧的门口进入一个光线昏暗的房间。第一名警察留着棕色短发，有小胡子，先走进来，后面跟着他的搭档，搭档剃着光头，留着山羊胡。两名警察表情严肃，步伐稳健地向房间深处走去。相机保持静止，从略低的角度拍摄他们进入房间的过程。房间有裸露的砖墙和波纹金属天花板，背景中可以看到一扇带栅栏的窗户。光线较暗，在警察脸上投下阴影，强调了严峻的氛围。该场景似乎来自电影或电视剧。	一位留着棕色短发、穿着栗色无袖上衣的女子…… 一位留着棕色短发、穿着栗色无袖上衣和银色项链的女子边说话边穿过房间，然后一位粉色头发、穿着白色衬衫的女子出现在门口并大喊。第一位女子从左向右走，表情严肃；她皮肤白皙，眉毛微微皱起。第二位女子站在门口，张着嘴大喊；她皮肤白皙，眼睛睁得很大。房间光线昏暗，背景中可以看到一个书架。相机跟随第一位女子走动，然后切换到第二位女子脸部的特写。该场景是真实生活的镜头。