LTX-Video-0.9.7-dev開源視頻生成模型 - 即時產出1216×704高分辨率、30幀/秒視頻

首頁

LTX Video 0.9.7 Dev

由Lightricks開發

首個基於DiT架構的即時高質量視頻生成模型，能以30幀/秒生成1216×704分辨率視頻

視頻處理英語開源協議:其他 #即時視頻生成 #高分辨率視頻 #DiT架構

下載量 477

發布時間 : 5/13/2025

模型概述

基於DiT架構的視頻生成模型，支持文本轉視頻和圖像+文本轉視頻兩種模式，可生成高分辨率、內容多樣化的視頻

模型特點

即時高清視頻生成

能以30幀/秒的速度生成1216×704分辨率的高質量視頻

多模態輸入支持

同時支持純文本輸入和圖像+文本結合的輸入方式

多版本適配不同需求

提供從最高質量到輕量化的多個版本，平衡速度與質量

多樣化內容生成

在多樣化視頻數據集上訓練，能生成內容真實多樣的視頻

模型能力

文本到視頻生成

圖像到視頻生成

高分辨率視頻合成

即時視頻渲染

使用案例

影視製作

電影場景預演

快速生成電影場景概念視頻

示例展示多個電影風格場景

角色表情動畫

根據文本描述生成角色表情變化

示例包含多種人物表情特寫

廣告創意

產品展示視頻

根據產品圖片生成動態展示

遊戲開發

環境動畫生成

生成遊戲場景動態背景

示例包含山脈、河流等自然環境

🚀 LTX-Video 0.9.7模型卡片

LTX-Video是首個基於DiT的視頻生成模型，能夠即時生成高質量視頻。它可以以1216×704的分辨率、30 FPS的幀率快速生成視頻，速度之快甚至超過觀看速度。該模型在大規模多樣化視頻數據集上進行訓練，能夠生成具有逼真且豐富內容的高分辨率視頻。我們為文本到視頻以及圖像+文本到視頻的應用場景都提供了相應模型。

示例展示


一位留著棕色長髮、皮膚白皙的女子對著另一位留著金色長髮的女子微笑…… 一位留著棕色長髮、皮膚白皙的女子對著另一位留著金色長髮的女子微笑。留著棕色頭髮的女子穿著黑色夾克，右臉頰上有一顆幾乎難以察覺的小痣。拍攝角度為特寫，聚焦在留著棕色頭髮女子的臉上。光線溫暖自然，可能來自夕陽，給場景披上了一層柔和的光芒。該場景看起來像是真實生活的片段。	一名女子在夜晚從停在城市街道上的白色吉普車前走過…… 一名女子在夜晚從停在城市街道上的白色吉普車前走過，然後走上樓梯並敲門。這名女子穿著深色夾克和牛仔褲，背對著鏡頭從停在街道左側的吉普車前走過；她步伐穩健，手臂在身體兩側微微擺動；街道燈光昏暗，路燈在潮溼的路面上投下一片片光亮；一名穿著深色夾克和牛仔褲的男子從相反方向走過吉普車；鏡頭從後面跟隨女子走上通往一座綠色門建築的樓梯；她到達樓梯頂部後向左轉，繼續朝建築走去；她走到門前，用右手敲門；鏡頭保持靜止，聚焦在門口；該場景是真實生活的片段。	一位梳著髮髻、穿著黑色亮片連衣裙和珍珠耳環的金髮女子…… 一位梳著髮髻、穿著黑色亮片連衣裙和珍珠耳環的金髮女子面帶悲傷地低頭。鏡頭保持靜止，聚焦在女子的臉上。光線昏暗，在她臉上投下柔和的陰影。該場景看起來像是電影或電視劇中的片段。	鏡頭掃過一片被雪覆蓋的山脈…… 鏡頭掃過一片被雪覆蓋的山脈，展現出一片廣闊的雪山和山谷。山脈被厚厚的積雪覆蓋，有些地方几乎呈白色，而有些地方則略帶灰色調。山峰參差不齊，有的高聳入雲，有的則較為圓潤。山谷又深又窄，陡峭的山坡也被雪覆蓋。前景中的樹木大多光禿禿的，只有少數樹枝上還留著幾片葉子。天空陰雲密佈，厚厚的雲層遮住了太陽。整體給人一種寧靜祥和的感覺，被雪覆蓋的山脈見證了大自然的力量與美麗。
一位皮膚白皙、穿著藍色夾克和黑色帶面紗帽子的女子…… 一位皮膚白皙、穿著藍色夾克和黑色帶面紗帽子的女子邊說話邊向下看向右側，然後又抬起頭。她留著棕色頭髮，梳成髮髻，眉毛呈淺棕色，夾克裡面穿著白色領口襯衫；她說話時鏡頭一直對著她的臉；背景有些模糊，但能看到樹木和穿著古裝的人；該場景是真實生活的片段。	一名男子在光線昏暗的房間裡對著老式電話交談…… 一名男子在光線昏暗的房間裡對著老式電話交談，然後掛斷電話，面帶悲傷地低頭。他用右手將黑色旋轉電話貼在右耳旁，左手拿著一個裝有琥珀色液體的岩石杯。他穿著棕色西裝外套，裡面是白色襯衫，左手無名指上戴著一枚金戒指。他的短髮梳理得很整齊，皮膚白皙，眼睛周圍有明顯的皺紋。鏡頭保持靜止，聚焦在他的臉和上半身。房間很暗，只有左側屏幕外的一個暖光源照亮，在他身後的牆上投下陰影。該場景看起來像是電影中的片段。	一名獄警打開牢房的門…… 一名獄警打開牢房的門，裡面有一名年輕男子和一名女子坐在桌旁。獄警穿著深藍色制服，左胸有徽章，用右手拿著鑰匙打開牢房門並拉開；他留著棕色短髮，皮膚白皙，表情平淡。年輕男子穿著黑白條紋襯衫，坐在鋪著白色桌布的桌旁，面向女子；他留著棕色短髮，皮膚白皙，表情平淡。女子穿著深藍色襯衫，坐在年輕男子對面，臉轉向他；她留著金色短髮，皮膚白皙。鏡頭保持靜止，從中間距離拍攝，位置略在獄警右側。房間光線昏暗，只有一盞燈具照亮桌子和兩個人。牆壁由巨大的灰色混凝土塊砌成，背景中可以看到一扇金屬門。該場景是真實生活的片段。	一位臉上有血、穿著白色背心的女子…… 一位臉上有血、穿著白色背心的女子邊說話邊向下看向右側，然後又抬起頭。她的深色頭髮向後梳，皮膚白皙，臉和胸部都沾滿了血。拍攝角度為特寫，聚焦在女子的臉和上半身。光線昏暗，呈藍色調，營造出一種憂鬱而緊張的氛圍。該場景看起來像是電影或電視劇中的片段。
一位頭髮花白、留著鬍鬚、穿著灰色襯衫的男子…… 一位頭髮花白、留著鬍鬚、穿著灰色襯衫的男子向下看向右側，然後轉頭向左。拍攝角度為特寫，聚焦在男子的臉上。光線昏暗，帶有綠色色調。該場景看起來是真實生活的片段。	一條清澈的藍綠色河流穿過岩石峽谷…… 一條清澈的藍綠色河流穿過岩石峽谷，從一個小瀑布上傾瀉而下，在底部形成一個水潭。河流是場景的主要焦點，清澈的河水倒映著周圍的樹木和岩石。峽谷壁陡峭多石，上面生長著一些植被。樹木大多是松樹，綠色的針葉與棕色和灰色的岩石形成鮮明對比。整個場景給人一種寧靜祥和的感覺。	一名穿著西裝的男子走進房間，與坐在沙發上的兩名女子交談…… 一名穿著西裝的男子走進房間，與坐在沙發上的兩名女子交談。男子穿著深色西裝，繫著金色領帶，從左側進入房間，朝畫面中心走去。他留著灰色短髮，皮膚白皙，表情嚴肅。他走近沙發時，右手放在椅子背上。背景中，兩名女子坐在淺色沙發上。左邊的女子穿著淺藍色毛衣，留著金色短髮。右邊的女子穿著白色毛衣，也留著金色短髮。鏡頭保持靜止，男子進入房間時聚焦在他身上。房間光線明亮，溫暖的色調從牆壁和傢俱上反射出來。該場景看起來像是電影或電視劇中的片段。	海浪拍打著岸邊參差不齊的岩石…… 海浪拍打著岸邊參差不齊的岩石，激起高高的浪花。岩石呈深灰色，邊緣鋒利，有很深的裂縫。海水呈清澈的藍綠色，海浪拍打岩石的地方泛起白色泡沫。天空呈淺灰色，地平線上點綴著幾朵白雲。
鏡頭掃過一座高樓林立的城市景觀…… 鏡頭掃過一座高樓林立的城市景觀，中間有一座圓形建築。鏡頭從左向右移動，展示了建築物的頂部和中間的圓形建築。建築物有各種灰色和白色調，圓形建築的屋頂是綠色的。拍攝角度較高，俯瞰著城市。光線明亮，太陽從左上方照射，建築物投下陰影。該場景是計算機生成的圖像。	一名男子走向窗戶，向外張望，然後轉身…… 一名男子走向窗戶，向外張望，然後轉身。他留著黑色短髮，皮膚黝黑，穿著棕色外套，裡面圍著紅灰色圍巾。他從左向右走向窗戶，目光盯著窗外的某個東西。鏡頭從後面以中等距離跟隨他。房間光線明亮，白色的牆壁和一扇被白色窗簾遮住的大窗戶。他走近窗戶時，頭微微向左轉，然後又向右轉。然後他整個身體向右轉，面向窗戶。他站在窗戶前時，鏡頭保持靜止。該場景是真實生活的片段。	兩名穿著深藍色制服和配套帽子的警察…… 兩名穿著深藍色制服和配套帽子的警察從畫面左側的門進入一個光線昏暗的房間。第一名警察留著棕色短髮，有小鬍子，先走進來，後面跟著他的搭檔，搭檔剃著光頭，留著山羊鬍。兩名警察表情嚴肅，步伐穩健地向房間深處走去。鏡頭保持靜止，他們進入時從略低的角度拍攝。房間的磚牆裸露，天花板是波紋金屬，背景中可以看到一扇帶柵欄的窗戶。光線較暗，在警察臉上投下陰影，凸顯出嚴峻的氛圍。該場景看起來像是電影或電視劇中的片段。	一位留著棕色短髮、穿著栗色無袖上衣的女子…… 一位留著棕色短髮、穿著栗色無袖上衣和銀色項鍊的女子邊說話邊穿過房間，然後一位留著粉色頭髮、穿著白色襯衫的女子出現在門口並大喊。第一位女子從左向右走，表情嚴肅；她皮膚白皙，眉毛微微皺起。第二位女子站在門口，張著嘴大喊；她皮膚白皙，眼睛睜得很大。房間光線昏暗，背景中可以看到一個書架。鏡頭跟隨第一位女子走動，然後切換到第二位女子臉的特寫。該場景是真實生活的片段。

✨ 主要特性

首個基於DiT的視頻生成模型，可即時生成高質量視頻。
能夠以1216×704分辨率、30 FPS幀率快速生成視頻。
在大規模多樣化視頻數據集上訓練，生成的視頻內容逼真且豐富。
提供文本到視頻以及圖像+文本到視頻兩種應用場景的模型。

📦 安裝指南

代碼庫在Python 3.10.5、CUDA版本12.2環境下進行了測試，支持PyTorch >= 2.1.2。

git clone https://github.com/Lightricks/LTX-Video.git
cd LTX-Video

# 創建虛擬環境
python -m venv env
source env/bin/activate
python -m pip install -e .\[inference-script\]

💻 使用示例

直接使用

你可以在許可證允許的範圍內使用該模型：

2B版本0.9：許可證
2B版本0.9.1：許可證
2B版本0.9.5：許可證
2B版本0.9.6-dev：許可證
2B版本0.9.6-distilled：許可證
13B版本0.9.7-dev：許可證
13B版本0.9.7-dev-fp8：許可證
13B版本0.9.7-distilled：許可證
13B版本0.9.7-distilled-fp8：許可證
13B版本0.9.7-distilled-lora128：許可證
時間上採樣器版本0.9.7：許可證
空間上採樣器版本0.9.7：許可證

通用提示

模型適用於分辨率能被32整除、幀數能被8 + 1（例如257）整除的情況。如果分辨率或幀數不能被32或8 + 1整除，輸入將被填充為 -1，然後裁剪到所需的分辨率和幀數。
模型在分辨率低於720 x 1280、幀數少於257時效果最佳。
提示詞應為英文，越詳細越好。例如：The turquoise waves crash against the dark, jagged rocks of the shore, sending white foam spraying into the air. The scene is dominated by the stark contrast between the bright blue water and the dark, almost black rocks. The water is a clear, turquoise color, and the waves are capped with white foam. The rocks are dark and jagged, and they are covered in patches of green moss. The shore is lined with lush green vegetation, including trees and bushes. In the background, there are rolling hills covered in dense forest. The sky is cloudy, and the light is dim.

在線演示

可通過以下鏈接立即訪問該模型：

ComfyUI

若要在ComfyUI中使用我們的模型，請遵循專用ComfyUI倉庫中的說明。

本地運行

推理

若要使用我們的模型，請遵循推理代碼：

文本到視頻生成

python inference.py --prompt "PROMPT" --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED --pipeline_config configs/ltxv-13b-0.9.7-dev.yaml

圖像到視頻生成

python inference.py --prompt "PROMPT" --input_image_path IMAGE_PATH --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED --pipeline_config configs/ltxv-13b-0.9.7-dev.yaml

Diffusers

LTX Video與Diffusers Python庫兼容，支持文本到視頻和圖像到視頻的生成。在嘗試以下示例之前，請確保安裝了diffusers：

pip install -U git+https://github.com/huggingface/diffusers

文本到視頻

import torch
from diffusers import LTXConditionPipeline, LTXLatentUpsamplePipeline
from diffusers.pipelines.ltx.pipeline_ltx_condition import LTXVideoCondition
from diffusers.utils import export_to_video

pipe = LTXConditionPipeline.from_pretrained("Lightricks/LTX-Video-0.9.7-dev", torch_dtype=torch.bfloat16)
pipe_upsample = LTXLatentUpsamplePipeline.from_pretrained("Lightricks/ltxv-spatial-upscaler-0.9.7", vae=pipe.vae, torch_dtype=torch.bfloat16)
pipe.to("cuda")
pipe_upsample.to("cuda")
pipe.vae.enable_tiling()

prompt = "The video depicts a winding mountain road covered in snow, with a single vehicle traveling along it. The road is flanked by steep, rocky cliffs and sparse vegetation. The landscape is characterized by rugged terrain and a river visible in the distance. The scene captures the solitude and beauty of a winter drive through a mountainous region."
negative_prompt = "worst quality, inconsistent motion, blurry, jittery, distorted"
expected_height, expected_width = 704, 512
downscale_factor = 2 / 3
num_frames = 121

# 第一部分：以較小分辨率生成視頻
downscaled_height, downscaled_width = int(expected_height * downscale_factor), int(expected_width * downscale_factor)
latents = pipe(
    conditions=None,
    prompt=prompt,
    negative_prompt=negative_prompt,
    width=downscaled_width,
    height=downscaled_height,
    num_frames=num_frames,
    num_inference_steps=30,
    generator=torch.Generator().manual_seed(0),
    output_type="latent",
).frames

# 第二部分：使用潛在上採樣器以較少推理步驟對生成的視頻進行上採樣
# 可用的潛在上採樣器將高度/寬度上採樣2倍
upscaled_height, upscaled_width = downscaled_height * 2, downscaled_width * 2
upscaled_latents = pipe_upsample(
    latents=latents,
    output_type="latent"
).frames

# 第三部分：以較少步驟對經過上採樣的視頻進行去噪以改善紋理（可選，但推薦）
video = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    width=upscaled_width,
    height=upscaled_height,
    num_frames=num_frames,
    denoise_strength=0.4,  # 實際上，10步中的4步推理
    num_inference_steps=10,
    latents=upscaled_latents,
    decode_timestep=0.05,
    image_cond_noise_scale=0.025,
    generator=torch.Generator().manual_seed(0),
    output_type="pil",
).frames[0]

# 第四部分：將視頻下采樣到預期分辨率
video = [frame.resize((expected_width, expected_height)) for frame in video]

export_to_video(video, "output.mp4", fps=24)

圖像到視頻

import torch
from diffusers import LTXConditionPipeline, LTXLatentUpsamplePipeline
from diffusers.pipelines.ltx.pipeline_ltx_condition import LTXVideoCondition
from diffusers.utils import export_to_video, load_image

pipe = LTXConditionPipeline.from_pretrained("Lightricks/LTX-Video-0.9.7-dev", torch_dtype=torch.bfloat16)
pipe_upsample = LTXLatentUpsamplePipeline.from_pretrained("Lightricks/ltxv-spatial-upscaler-0.9.7", vae=pipe.vae, torch_dtype=torch.bfloat16)
pipe.to("cuda")
pipe_upsample.to("cuda")
pipe.vae.enable_tiling()

image = load_image("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/penguin.png")
video = [image]
condition1 = LTXVideoCondition(video=video, frame_index=0)

prompt = "The video depicts a winding mountain road covered in snow, with a single vehicle traveling along it. The road is flanked by steep, rocky cliffs and sparse vegetation. The landscape is characterized by rugged terrain and a river visible in the distance. The scene captures the solitude and beauty of a winter drive through a mountainous region."
negative_prompt = "worst quality, inconsistent motion, blurry, jittery, distorted"
expected_height, expected_width = 832, 480
downscale_factor = 2 / 3
num_frames = 96

# 第一部分：以較小分辨率生成視頻
downscaled_height, downscaled_width = int(expected_height * downscale_factor), int(expected_width * downscale_factor)
downscaled_height, downscaled_width = round_to_nearest_resolution_acceptable_by_vae(downscaled_height, downscaled_width)
latents = pipe(
    conditions=[condition1],
    prompt=prompt,
    negative_prompt=negative_prompt,
    width=downscaled_width,
    height=downscaled_height,
    num_frames=num_frames,
    num_inference_steps=30,
    generator=torch.Generator().manual_seed(0),
    output_type="latent",
).frames

# 第二部分：使用潛在上採樣器以較少推理步驟對生成的視頻進行上採樣
# 可用的潛在上採樣器將高度/寬度上採樣2倍
upscaled_height, upscaled_width = downscaled_height * 2, downscaled_width * 2
upscaled_latents = pipe_upsample(
    latents=latents,
    output_type="latent"
).frames

# 第三部分：以較少步驟對經過上採樣的視頻進行去噪以改善紋理（可選，但推薦）
video = pipe(
    conditions=[condition1],
    prompt=prompt,
    negative_prompt=negative_prompt,
    width=upscaled_width,
    height=upscaled_height,
    num_frames=num_frames,
    denoise_strength=0.4,  # 實際上，10步中的4步推理
    num_inference_steps=10,
    latents=upscaled_latents,
    decode_timestep=0.05,
    image_cond_noise_scale=0.025,
    generator=torch.Generator().manual_seed(0),
    output_type="pil",
).frames[0]

# 第四部分：將視頻下采樣到預期分辨率
video = [frame.resize((expected_width, expected_height)) for frame in video]

export_to_video(video, "output.mp4", fps=24)

視頻到視頻

import torch
from diffusers import LTXConditionPipeline, LTXLatentUpsamplePipeline
from diffusers.pipelines.ltx.pipeline_ltx_condition import LTXVideoCondition
from diffusers.utils import export_to_video, load_video

pipe = LTXConditionPipeline.from_pretrained("Lightricks/LTX-Video-0.9.7-dev", torch_dtype=torch.bfloat16)
pipe_upsample = LTXLatentUpsamplePipeline.from_pretrained("Lightricks/ltxv-spatial-upscaler-0.9.7", vae=pipe.vae, torch_dtype=torch.bfloat16)
pipe.to("cuda")
pipe_upsample.to("cuda")
pipe.vae.enable_tiling()

def round_to_nearest_resolution_acceptable_by_vae(height, width):
    height = height - (height % pipe.vae_temporal_compression_ratio)
    width = width - (width % pipe.vae_temporal_compression_ratio)
    return height, width

video = load_video(
    "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/cosmos/cosmos-video2world-input-vid.mp4"
)[:21]  # 僅使用前21幀作為條件
condition1 = LTXVideoCondition(video=video, frame_index=0)

prompt = "The video depicts a winding mountain road covered in snow, with a single vehicle traveling along it. The road is flanked by steep, rocky cliffs and sparse vegetation. The landscape is characterized by rugged terrain and a river visible in the distance. The scene captures the solitude and beauty of a winter drive through a mountainous region."
negative_prompt = "worst quality, inconsistent motion, blurry, jittery, distorted"
expected_height, expected_width = 768, 1152
downscale_factor = 2 / 3
num_frames = 161

# 第一部分：以較小分辨率生成視頻
downscaled_height, downscaled_width = int(expected_height * downscale_factor), int(expected_width * downscale_factor)
downscaled_height, downscaled_width = round_to_nearest_resolution_acceptable_by_vae(downscaled_height, downscaled_width)
latents = pipe(
    conditions=[condition1],
    prompt=prompt,
    negative_prompt=negative_prompt,
    width=downscaled_width,
    height=downscaled_height,
    num_frames=num_frames,
    num_inference_steps=30,
    generator=torch.Generator().manual_seed(0),
    output_type="latent",
).frames

# 第二部分：使用潛在上採樣器以較少推理步驟對生成的視頻進行上採樣
# 可用的潛在上採樣器將高度/寬度上採樣2倍
upscaled_height, upscaled_width = downscaled_height * 2, downscaled_width * 2
upscaled_latents = pipe_upsample(
    latents=latents,
    output_type="latent"
).frames

# 第三部分：以較少步驟對經過上採樣的視頻進行去噪以改善紋理（可選，但推薦）
video = pipe(
    conditions=[condition1],
    prompt=prompt,
    negative_prompt=negative_prompt,
    width=upscaled_width,
    height=upscaled_height,
    num_frames=num_frames,
    denoise_strength=0.4,  # 實際上，10步中的4步推理
    num_inference_steps=10,
    latents=upscaled_latents,
    decode_timestep=0.05,
    image_cond_noise_scale=0.025,
    generator=torch.Generator().manual_seed(0),
    output_type="pil",
).frames[0]

# 第四部分：將視頻下采樣到預期分辨率
video = [frame.resize((expected_width, expected_height)) for frame in video]

export_to_video(video, "output.mp4", fps=24)

若要了解更多信息，請查看官方文檔。Diffusers還支持使用from_single_file()方法直接從原始LTX檢查點加載模型。查看此部分以瞭解更多。

📚 詳細文檔

模型詳情

屬性	詳情
開發者	Lightricks
模型類型	基於擴散的文本到視頻和圖像到視頻生成模型
語言	英語

模型列表

名稱	說明	推理配置文件	ComfyUI工作流（推薦）
ltxv-13b-0.9.7-dev	質量最高，需要更多VRAM	ltxv-13b-0.9.7-dev.yaml	ltxv-13b-i2v-base.json
ltxv-13b-0.9.7-mix	在相同的多尺度渲染工作流中混合ltxv-13b-dev和ltxv-13b-distilled，以實現速度和質量的平衡	N/A	ltxv-13b-i2v-mix.json
ltxv-13b-0.9.7-distilled	速度更快，VRAM使用更少，與13b相比質量略有下降。適合快速迭代	ltxv-13b-0.9.7-distilled.yaml	ltxv-13b-dist-i2v-base.json
ltxv-13b-0.9.7-distilled-lora128	LoRA，使ltxv-13b-dev表現得像蒸餾模型	N/A	N/A
ltxv-13b-0.9.7-fp8	ltxv-13b的量化版本	即將推出	ltxv-13b-i2v-base-fp8.json
ltxv-13b-0.9.7-distilled-fp8	ltxv-13b-distilled的量化版本	即將推出	ltxv-13b-dist-fp8-i2v-base.json
ltxv-2b-0.9.6	質量良好，比ltxv-13b需要更少的VRAM	ltxv-2b-0.9.6-dev.yaml	ltxvideo-i2v.json
ltxv-2b-0.9.6-distilled	速度快15倍，支持即時處理，所需步驟更少，無需STG/CFG	ltxv-2b-0.9.6-distilled.yaml	ltxvideo-i2v-distilled.json