LTX Video 0.9.1
基於DiT架構的即時高質量視頻生成模型,支持文本轉視頻及圖像轉視頻兩種應用場景
下載量 64
發布時間 : 3/16/2025
模型概述
LTX視頻是首個基於DiT架構的即時高質量視頻生成模型,能以1216×704分辨率、30幀/秒的速度生成高分辨率且內容豐富的逼真視頻。
模型特點
即時高質量視頻生成
能以1216×704分辨率、30幀/秒的速度生成視頻,速度甚至快於即時觀看
多版本適配不同需求
提供2B/13B參數版本及蒸餾版本,平衡質量與性能需求
雙模態輸入支持
同時支持文本轉視頻(text-to-video)和圖像轉視頻(image-to-video)兩種生成方式
高分辨率輸出
支持最高1216×704分辨率輸出,在720×1280分辨率及257幀以下表現最佳
模型能力
文本轉視頻生成
圖像轉視頻生成
高分辨率視頻合成
即時視頻渲染
使用案例
影視製作
影視場景預演
快速生成劇本描述的影視場景預覽
示例展示監獄場景、城市街道等影視級畫面
創意內容
動態視覺內容創作
根據文字描述生成創意短視頻
示例包含自然景觀、人物特寫等多樣化內容
🚀 LTX-Video模型卡片
LTX-Video是首個基於DiT的視頻生成模型,能夠即時生成高質量視頻。它能以1216×704的分辨率、30 FPS的幀率生成視頻,速度之快甚至超過觀看速度。該模型在大規模多樣化視頻數據集上進行訓練,可生成具有逼真且豐富內容的高分辨率視頻。我們為文本到視頻以及圖像+文本到視頻的用例都提供了相應模型。
🚀 快速開始
本模型可通過以下方式立即訪問:
若要在ComfyUI中使用我們的模型,請遵循專用ComfyUI倉庫中的說明。
✨ 主要特性
- 即時生成高質量視頻,幀率達30 FPS,分辨率為1216×704。
- 在大規模多樣化視頻數據集上訓練,生成的視頻內容逼真且豐富。
- 支持文本到視頻以及圖像+文本到視頻兩種用例。
📦 安裝指南
代碼庫在Python 3.10.5、CUDA版本12.2環境下進行了測試,支持PyTorch >= 2.1.2。
git clone https://github.com/Lightricks/LTX-Video.git
cd LTX-Video
# 創建虛擬環境
python -m venv env
source env/bin/activate
python -m pip install -e .\[inference-script\]
💻 使用示例
基礎用法
在本地運行推理時,可參考以下代碼:
文本到視頻生成
python inference.py --prompt "PROMPT" --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED --pipeline_config ltxv-13b-0.9.7-dev.yaml
圖像到視頻生成
python inference.py --prompt "PROMPT" --input_image_path IMAGE_PATH --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED --pipeline_config ltxv-13b-0.9.7-dev.yaml
高級用法
使用Diffusers
庫進行視頻生成:
import torch
from diffusers import LTXPipeline
from diffusers.utils import export_to_video
pipe = LTXPipeline.from_pretrained("Lightricks/LTX-Video", torch_dtype=torch.bfloat16)
pipe.to("cuda")
prompt = "A woman with long brown hair and light skin smiles at another woman with long blonde hair. The woman with brown hair wears a black jacket and has a small, barely noticeable mole on her right cheek. The camera angle is a close-up, focused on the woman with brown hair's face. The lighting is warm and natural, likely from the setting sun, casting a soft glow on the scene. The scene appears to be real-life footage"
negative_prompt = "worst quality, inconsistent motion, blurry, jittery, distorted"
video = pipe(
prompt=prompt,
negative_prompt=negative_prompt,
width=704,
height=480,
num_frames=161,
num_inference_steps=50,
).frames[0]
export_to_video(video, "output.mp4", fps=24)
圖像到視頻生成示例:
import torch
from diffusers import LTXImageToVideoPipeline
from diffusers.utils import export_to_video, load_image
pipe = LTXImageToVideoPipeline.from_pretrained("Lightricks/LTX-Video", torch_dtype=torch.bfloat16)
pipe.to("cuda")
image = load_image(
"https://huggingface.co/datasets/a-r-r-o-w/tiny-meme-dataset-captioned/resolve/main/images/8.png"
)
prompt = "A young girl stands calmly in the foreground, looking directly at the camera, as a house fire rages in the background. Flames engulf the structure, with smoke billowing into the air. Firefighters in protective gear rush to the scene, a fire truck labeled '38' visible behind them. The girl's neutral expression contrasts sharply with the chaos of the fire, creating a poignant and emotionally charged scene."
negative_prompt = "worst quality, inconsistent motion, blurry, jittery, distorted"
video = pipe(
image=image,
prompt=prompt,
negative_prompt=negative_prompt,
width=704,
height=480,
num_frames=161,
num_inference_steps=50,
).frames[0]
export_to_video(video, "output.mp4", fps=24)
更多信息請查看官方文檔。Diffusers
還支持使用from_single_file()
方法直接從原始LTX檢查點加載模型,更多內容請查看此部分。
📚 詳細文檔
模型信息
屬性 | 詳情 |
---|---|
模型類型 | 基於擴散的文本到視頻和圖像到視頻生成模型 |
開發方 | Lightricks |
語言 | 英語 |
模型使用許可
你可以在以下許可下使用該模型:
- 2B版本0.9:許可
- 2B版本0.9.1:許可
- 2B版本0.9.5:許可
- 2B版本0.9.6-dev:許可
- 2B版本0.9.6-distilled:許可
- 13B版本0.9.7-dev:許可
- 13B版本0.9.7-dev-fp8:許可
- 時間上採樣器版本0.9.7:許可
- 空間上採樣器版本0.9.7:許可
通用提示
- 模型適用於分辨率能被32整除、幀數能被8 + 1(例如257)整除的情況。若分辨率或幀數不能被32或8 + 1整除,輸入將用 -1 填充,然後裁剪到所需的分辨率和幀數。
- 模型在分辨率低於720 x 1280、幀數少於257的情況下效果最佳。
- 提示詞應為英語,越詳細越好。一個好的提示詞示例如下:
The turquoise waves crash against the dark, jagged rocks of the shore, sending white foam spraying into the air. The scene is dominated by the stark contrast between the bright blue water and the dark, almost black rocks. The water is a clear, turquoise color, and the waves are capped with white foam. The rocks are dark and jagged, and they are covered in patches of green moss. The shore is lined with lush green vegetation, including trees and bushes. In the background, there are rolling hills covered in dense forest. The sky is cloudy, and the light is dim.
🔧 技術細節
本模型代碼庫可在此處獲取。以下是不同版本模型的詳細信息:
模型 | 版本 | 說明 | inference.py配置 | ComfyUI工作流(推薦) |
---|---|---|---|---|
ltxv - 13b | 0.9.7 | 最高質量,需要更多VRAM | ltxv - 13b - 0.9.7 - dev.yaml | ltxv - 13b - i2v - base.json |
ltxv - 13b - fp8 | 0.9.7 | 量化模型 | 即將推出 | ltxv - 13b - i2v - base - fp8.json |
ltxv - 2b | 0.9.6 | 質量良好,比ltxv - 13b需要更少的VRAM | ltxv - 2b - 0.9.6 - dev.yaml | ltxvideo - i2v.json |
ltxv - 2b - distilled | 0.9.6 | 速度快15倍,支持即時生成,所需步驟更少,無需STG/CFG | ltxv - 2b - 0.9.6 - distilled.yaml | ltxvideo - i2v - distilled.json |
📄 許可證
本模型使用其他許可證,具體許可信息可參考上述各版本模型的許可鏈接。
模型示例展示
![]() 一位留著棕色長髮、皮膚白皙的女子對著另一位留著金色長髮的女子微笑……一位留著棕色長髮、皮膚白皙的女子對著另一位留著金色長髮的女子微笑。留棕色頭髮的女子穿著黑色夾克,右臉頰上有一顆小到幾乎看不見的痣。相機視角為特寫,聚焦在留棕色頭髮女子的臉上。光線溫暖自然,可能來自夕陽,給場景披上了一層柔和的光芒。該場景看起來像是真實生活的鏡頭。 |
![]() 一名女子在夜晚從停在城市街道上的白色吉普車上走開……一名女子在夜晚從停在城市街道上的白色吉普車上走開,然後走上樓梯並敲門。這名女子穿著深色夾克和牛仔褲,背對著相機,從停在街道左側的吉普車上走開;她步伐穩健,手臂在身體兩側微微擺動;街道燈光昏暗,路燈在潮溼的路面上投下一片片光亮;一名穿著深色夾克和牛仔褲的男子從相反方向走過吉普車;相機從後面跟隨女子走上樓梯,朝著一扇綠色門的建築走去;她到達樓梯頂部後向左轉,繼續朝著建築走去;她走到門口,用右手敲門;相機保持靜止,聚焦在門口;該場景是真實生活的鏡頭。 |
![]() 一位梳著髮髻的金髮女子,穿著黑色亮片連衣裙……一位梳著髮髻的金髮女子,穿著黑色亮片連衣裙,戴著珍珠耳環,臉上帶著悲傷的表情低頭。相機保持靜止,聚焦在女子的臉上。光線昏暗,在她臉上投下柔和的陰影。該場景似乎來自電影或電視劇。 |
![]() 相機掃過一片被雪覆蓋的山脈……相機掃過一片被雪覆蓋的山脈,展現出一片廣闊的雪山和山谷。山脈被厚厚的積雪覆蓋,有些地方几乎呈白色,而有些地方則略帶灰色調。山峰參差不齊,有的陡峭地伸向天空,有的則較為圓潤。山谷又深又窄,陡峭的山坡也被雪覆蓋。前景中的樹木大多光禿禿的,只有少數樹枝上還留著幾片葉子。天空陰雲密佈,厚厚的雲層遮住了太陽。整體給人一種寧靜祥和的感覺,被雪覆蓋的山脈見證了大自然的力量和美麗。 |
![]() 一位皮膚白皙的女子,穿著藍色夾克和黑色帶面紗的帽子……一位皮膚白皙的女子,穿著藍色夾克和黑色帶面紗的帽子,邊說話邊低頭向右看,然後抬頭。她留著棕色頭髮,梳成髮髻,淺棕色眉毛,夾克裡面穿著白色領口襯衫;她說話時相機一直對著她的臉;背景模糊,但能看到樹木和穿著古裝的人;該場景是真實生活的鏡頭。 |
![]() 一名男子在光線昏暗的房間裡對著老式電話交談……一名男子在光線昏暗的房間裡對著老式電話交談,掛斷電話後悲傷地低頭。他用右手將黑色旋轉電話貼在右耳,左手拿著一個裝有琥珀色液體的岩石杯。他穿著棕色西裝外套,裡面是白色襯衫,左手無名指上戴著一枚金戒指。他的短髮梳理得很整齊,皮膚白皙,眼睛周圍有明顯的皺紋。相機保持靜止,聚焦在他的臉和上半身。房間很暗,只有左邊屏幕外的一個暖光源照亮,在他身後的牆上投下陰影。該場景似乎來自電影。 |
![]() 一名獄警打開牢房的門……一名獄警打開牢房的門,裡面有一名年輕男子和一名女子坐在桌旁。獄警穿著深藍色制服,左胸有徽章,用右手拿著鑰匙打開牢房門並拉開;他留著棕色短髮,皮膚白皙,表情平淡。年輕男子穿著黑白條紋襯衫,坐在鋪著白色桌布的桌子旁,面向女子;他留著棕色短髮,皮膚白皙,表情平淡。女子穿著深藍色襯衫,坐在年輕男子對面,臉轉向他;她留著金色短髮,皮膚白皙。相機保持靜止,從中間距離拍攝,位置略在獄警右側。房間光線昏暗,一盞燈照亮了桌子和兩個人物。牆壁由大塊灰色混凝土塊砌成,背景中可以看到一扇金屬門。該場景是真實生活的鏡頭。 |
![]() 一位臉上有血跡、穿著白色背心的女子……一位臉上有血跡、穿著白色背心的女子邊說話邊低頭向右看,然後抬頭。她留著深色頭髮,向後梳起,皮膚白皙,臉和胸部都沾滿了血。相機視角為特寫,聚焦在女子的臉和上半身。光線昏暗,呈藍色調,營造出一種憂鬱而強烈的氛圍。該場景似乎來自電影或電視劇。 |
![]() 一位頭髮花白、留著鬍鬚、穿著灰色襯衫的男子……一位頭髮花白、留著鬍鬚、穿著灰色襯衫的男子低頭向右看,然後向左轉頭。相機視角為特寫,聚焦在男子的臉上。光線昏暗,帶有綠色色調。該場景看起來像是真實生活的鏡頭。 |
![]() 一條清澈的藍綠色河流流經岩石峽谷……一條清澈的藍綠色河流流經岩石峽谷,從一個小瀑布上傾瀉而下,在底部形成一個水池。河流是場景的主要焦點,清澈的河水倒映著周圍的樹木和岩石。峽谷壁陡峭多石,上面生長著一些植被。樹木大多是松樹,綠色的針葉與棕色和灰色的岩石形成鮮明對比。整個場景給人一種寧靜祥和的感覺。 |
![]() 一名穿著西裝的男子進入房間並與兩位坐在沙發上的女子交談……一名穿著西裝的男子進入房間並與兩位坐在沙發上的女子交談。這名男子穿著深色西裝,繫著金色領帶,從左邊進入房間,朝畫面中心走去。他留著灰色短髮,皮膚白皙,表情嚴肅。他走近沙發時,將右手放在椅子背上。背景中,兩位女子坐在淺色沙發上。左邊的女子穿著淺藍色毛衣,留著金色短髮。右邊的女子穿著白色毛衣,留著金色短髮。相機保持靜止,聚焦在男子進入房間的過程。房間光線明亮,溫暖的色調從牆壁和傢俱上反射出來。該場景似乎來自電影或電視劇。 |
![]() 海浪拍打著海岸線的鋸齒狀岩石……海浪拍打著海岸線的鋸齒狀岩石,激起高高的浪花。岩石呈深灰色,邊緣鋒利,有很深的裂縫。海水是清澈的藍綠色,海浪拍打岩石的地方泛起白色泡沫。天空是淺灰色的,地平線上點綴著幾朵白雲。 |
![]() 相機掃過一座有圓形建築的城市景觀……相機從左到右掃過一座有圓形建築的城市景觀,展示了建築物的頂部和中間的圓形建築。建築物有各種灰色和白色調,圓形建築有綠色屋頂。相機視角較高,俯瞰著城市。光線明亮,太陽從左上方照射,建築物投下陰影。該場景是計算機生成的圖像。 |
![]() 一名男子走向窗戶,向外張望,然後轉身……一名男子走向窗戶,向外張望,然後轉身。他留著黑色短髮,皮膚黝黑,穿著棕色外套,裡面圍著紅灰色圍巾。他從左向右走向窗戶,目光盯著外面的某個東西。相機從後面以中等距離跟隨他。房間光線明亮,白色牆壁和一扇被白色窗簾遮住的大窗戶。當他走近窗戶時,他微微向左轉頭,然後又向右轉頭。然後他整個身體向右轉,面向窗戶。相機在他站在窗戶前時保持靜止。該場景是真實生活的鏡頭。 |
![]() 兩名穿著深藍色制服和相配帽子的警察……兩名穿著深藍色制服和相配帽子的警察從畫面左側的門口進入一個光線昏暗的房間。第一名警察留著棕色短髮,有小鬍子,先走進來,後面跟著他的搭檔,搭檔剃著光頭,留著山羊鬍。兩名警察表情嚴肅,步伐穩健地向房間深處走去。相機保持靜止,從略低的角度拍攝他們進入房間的過程。房間有裸露的磚牆和波紋金屬天花板,背景中可以看到一扇帶柵欄的窗戶。光線較暗,在警察臉上投下陰影,強調了嚴峻的氛圍。該場景似乎來自電影或電視劇。 |
![]() 一位留著棕色短髮、穿著栗色無袖上衣的女子……一位留著棕色短髮、穿著栗色無袖上衣和銀色項鍊的女子邊說話邊穿過房間,然後一位粉色頭髮、穿著白色襯衫的女子出現在門口並大喊。第一位女子從左向右走,表情嚴肅;她皮膚白皙,眉毛微微皺起。第二位女子站在門口,張著嘴大喊;她皮膚白皙,眼睛睜得很大。房間光線昏暗,背景中可以看到一個書架。相機跟隨第一位女子走動,然後切換到第二位女子臉部的特寫。該場景是真實生活的鏡頭。 |
⚠️ 重要提示
- 本模型並非用於提供事實信息,也無法做到這一點。
- 作為統計模型,該檢查點可能會放大現有的社會偏見。
- 模型可能無法完美生成與提示詞匹配的視頻。
- 模型對提示詞的遵循程度在很大程度上受提示風格的影響。
💡 使用建議
- 儘量使用能被32整除的分辨率和能被8 + 1整除的幀數,以獲得更好的效果。
- 當分辨率低於720 x 1280、幀數少於257時,模型表現更佳。
- 提示詞使用英語,並且越詳細越好,這樣能讓生成的視頻更符合預期。
Xclip Base Patch32
MIT
X-CLIP是CLIP的擴展版本,用於通用視頻語言理解,通過對比學習在(視頻,文本)對上訓練,適用於視頻分類和視頻-文本檢索等任務。
文本生成視頻
Transformers 英語

X
microsoft
309.80k
84
LTX Video
其他
首個基於DiT的視頻生成模型,能夠即時生成高質量視頻,支持文本轉視頻和圖像+文本轉視頻兩種場景。
文本生成視頻 英語
L
Lightricks
165.42k
1,174
Wan2.1 14B VACE GGUF
Apache-2.0
Wan2.1-VACE-14B模型的GGUF格式版本,主要用於文本到視頻的生成任務。
文本生成視頻
W
QuantStack
146.36k
139
Animatediff Lightning
Openrail
極速文本生成視頻模型,生成速度比原版AnimateDiff快十倍以上
文本生成視頻
A
ByteDance
144.00k
925
V Express
V-Express是一個基於音頻和麵部關鍵點條件生成的視頻生成模型,能夠將音頻輸入轉換為動態視頻輸出。
文本生成視頻 英語
V
tk93
118.36k
85
Cogvideox 5b
其他
CogVideoX是源自清影的視頻生成模型的開源版本,提供高質量的視頻生成能力。
文本生成視頻 英語
C
THUDM
92.32k
611
Llava NeXT Video 7B Hf
LLaVA-NeXT-Video是一個開源多模態聊天機器人,通過視頻和圖像數據混合訓練獲得優秀的視頻理解能力,在VideoMME基準上達到開源模型SOTA水平。
文本生成視頻
Transformers 英語

L
llava-hf
65.95k
88
Wan2.1 T2V 14B Diffusers
Apache-2.0
萬2.1是一套全面開放的視頻基礎模型,旨在突破視頻生成的邊界,支持中英文文本生成視頻、圖像生成視頻等多種任務。
文本生成視頻 支持多種語言
W
Wan-AI
48.65k
24
Wan2.1 T2V 1.3B Diffusers
Apache-2.0
萬2.1是一套全面開放的視頻基礎模型,具備頂尖性能、支持消費級GPU、多任務支持、視覺文本生成和高效視頻VAE等特點。
文本生成視頻 支持多種語言
W
Wan-AI
45.29k
38
Wan2.1 T2V 14B
Apache-2.0
萬2.1是一套綜合性開源視頻基礎模型,具備文本生成視頻、圖像生成視頻、視頻編輯、文本生成圖像及視頻生成音頻等多任務能力,支持中英雙語文本生成。
文本生成視頻 支持多種語言
W
Wan-AI
44.88k
1,238
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98