LTX Video
模型概述
LTX視頻是一個基於擴散的即時視頻生成模型,能以768x512分辨率和24幀/秒的速度生成高質量視頻。支持文本到視頻和圖像+文本到視頻兩種生成模式。
模型特點
即時高質量視頻生成
能以768x512分辨率、24幀/秒的速度生成視頻,速度比即時播放更快
雙模式支持
同時支持文本到視頻和圖像+文本到視頻兩種生成模式
高分辨率輸出
最佳表現分辨率低於720x1280,可生成內容真實豐富的高清視頻
模型能力
文本到視頻生成
圖像到視頻生成
高清視頻合成
即時視頻渲染
使用案例
創意內容生成
自然場景生成
生成如海浪拍岸等自然場景的高質量視頻
生成具有真實光影效果和水體動態的連貫視頻
概念可視化
根據文本描述將抽象概念可視化
生成符合文本描述的創意視頻內容
影視預製作
故事板生成
快速生成影視項目的初步視覺概念
幫助導演和團隊快速可視化場景
🚀 LTX-Video模型卡片
LTX-Video是首個基於DiT的視頻生成模型,能夠即時生成高質量視頻。它可以快速生成768x512分辨率、24 FPS的視頻。該模型在大規模多樣化視頻數據集上進行訓練,能夠生成具有逼真和多樣化內容的高分辨率視頻。我們提供了適用於文本到視頻以及圖像+文本到視頻用例的模型。
![]() 一位留著棕色長髮、皮膚白皙的女子對著另一位留著金色長髮的女子微笑...一位留著棕色長髮、皮膚白皙的女子對著另一位留著金色長髮的女子微笑。留著棕色頭髮的女子穿著黑色夾克,右臉頰上有一顆幾乎難以察覺的小痣。拍攝角度為特寫,聚焦在留著棕色頭髮的女子臉上。光線溫暖而自然,可能來自夕陽,給場景披上了一層柔和的光芒。該場景看起來像是真實的鏡頭畫面。 |
![]() 夜晚,一名女子從停在城市街道上的白色吉普車上走開...夜晚,一名女子從停在城市街道上的白色吉普車上走開,然後走上樓梯並敲門。這名女子穿著深色夾克和牛仔褲,背對著鏡頭,從停在街道左側的吉普車上走開;她步伐平穩,手臂在身體兩側微微擺動;街道燈光昏暗,路燈在潮溼的路面上投下一片片光影;一名穿著深色夾克和牛仔褲的男子朝相反的方向走過吉普車;鏡頭從後面跟隨女子走上一組樓梯,朝向一扇綠色門的建築物;她走到樓梯頂部後向左轉,繼續朝建築物走去;她走到門口,用右手敲門;鏡頭保持靜止,聚焦在門口;該場景是真實的鏡頭畫面。 |
![]() 一位梳著金色髮髻、穿著黑色亮片連衣裙的女子...一位梳著金色髮髻、穿著黑色亮片連衣裙、戴著珍珠耳環的女子低頭看著,臉上露出悲傷的表情。鏡頭保持靜止,聚焦在女子的臉上。光線昏暗,在她臉上投下柔和的陰影。該場景似乎來自電影或電視劇。 |
![]() 鏡頭掃過一片被雪覆蓋的山脈...鏡頭掃過一片被雪覆蓋的山脈,展現出一片廣闊的、白雪皚皚的山峰和山谷。山脈被厚厚的積雪覆蓋,有些地方几乎呈白色,而有些地方則略帶灰色調。山峰參差不齊,有的陡峭地聳立在天空中,有的則較為圓潤。山谷又深又窄,陡峭的山坡也被雪覆蓋著。前景中的樹木大多光禿禿的,只有少數樹枝上還留著幾片葉子。天空陰沉沉的,厚厚的雲層遮住了太陽。整體給人一種寧靜祥和的感覺,被雪覆蓋的山脈見證了大自然的力量和美麗。 |
![]() 一位皮膚白皙、穿著藍色夾克和黑色帶面紗帽子的女子...一位皮膚白皙、穿著藍色夾克和黑色帶面紗帽子的女子低頭看向右側,然後在說話時抬起頭來;她梳著棕色髮髻,眉毛淺棕色,夾克裡面穿著白色領口襯衫;她說話時鏡頭一直對著她的臉;背景有些模糊,但可以看到樹木和穿著古裝的人;該場景是真實的鏡頭畫面。 |
![]() 一個男人在光線昏暗的房間裡用老式電話交談...一個男人在光線昏暗的房間裡用老式電話交談,掛斷電話後低頭,臉上露出悲傷的表情。他用右手將黑色轉盤電話貼在右耳旁,左手拿著一個裝有琥珀色液體的岩石杯。他穿著棕色西裝外套,裡面是白色襯衫,左手無名指上戴著一枚金戒指。他的短髮梳理得很整齊,皮膚白皙,眼睛周圍有明顯的皺紋。鏡頭保持靜止,聚焦在他的臉和上半身。房間很暗,只有左邊屏幕外的一個暖光源照亮,在他身後的牆上投下陰影。該場景似乎來自電影。 |
![]() 一名獄警打開牢房的門...一名獄警打開牢房的門,發現一個年輕人和一名女子坐在桌旁。獄警穿著深藍色制服,左胸上有一個徽章,他用右手拿著鑰匙打開牢房門並拉開;他留著棕色短髮,皮膚白皙,表情平淡。年輕人穿著黑白條紋襯衫,坐在鋪著白色桌布的桌子旁,面向女子;他留著棕色短髮,皮膚白皙,表情平淡。女子穿著深藍色襯衫,坐在年輕人對面,臉轉向他;她留著金色短髮,皮膚白皙。鏡頭保持靜止,從適中的距離捕捉場景,位置略在獄警右側。房間光線昏暗,只有一個燈具照亮桌子和兩個人物。牆壁由巨大的灰色混凝土塊砌成,背景中可以看到一扇金屬門。該場景是真實的鏡頭畫面。 |
![]() 一個臉上有血、穿著白色背心的女人...一個臉上有血、穿著白色背心的女人低頭看向右側,然後在說話時抬起頭來。她的黑髮往後梳,皮膚白皙,臉和胸部都沾滿了血。拍攝角度為特寫,聚焦在女人的臉和上半身。光線昏暗,呈藍色調,營造出一種憂鬱而緊張的氛圍。該場景似乎來自電影或電視劇。 |
![]() 一個頭發花白、留著鬍鬚、穿著灰色襯衫的男人...一個頭發花白、留著鬍鬚、穿著灰色襯衫的男人低頭看向右側,然後把頭轉向左側。拍攝角度為特寫,聚焦在男人的臉上。光線昏暗,帶有綠色色調。該場景似乎是真實的鏡頭畫面。步驟 |
![]() 一條清澈的藍綠色河流穿過岩石峽谷...一條清澈的藍綠色河流穿過岩石峽谷,從一個小瀑布上傾瀉而下,在底部形成一個水池。河流是場景的主要焦點,清澈的河水倒映著周圍的樹木和岩石。峽谷壁陡峭而多岩石,上面生長著一些植被。樹木大多是松樹,綠色的針葉與棕色和灰色的岩石形成鮮明對比。整個場景給人一種寧靜祥和的感覺。 |
![]() 一個穿著西裝的男人走進房間,和兩個女人交談...一個穿著西裝的男人走進房間,和坐在沙發上的兩個女人交談。男人穿著深色西裝,繫著金色領帶,從左邊走進房間,朝畫面中心走去。他留著灰色短髮,皮膚白皙,表情嚴肅。他走近沙發時,右手放在椅子背上。背景中,兩個女人坐在淺色沙發上。左邊的女人穿著淺藍色毛衣,留著金色短髮。右邊的女人穿著白色毛衣,也留著金色短髮。鏡頭保持靜止,聚焦在男人走進房間的畫面上。房間光線明亮,溫暖的色調從牆壁和傢俱上反射出來。該場景似乎來自電影或電視劇。 |
![]() 海浪拍打著海岸線參差不齊的岩石...海浪拍打著海岸線參差不齊的岩石,激起高高的浪花。岩石呈深灰色,邊緣鋒利,有很深的裂縫。海水是清澈的藍綠色,海浪拍打岩石的地方泛起白色泡沫。天空是淺灰色的,地平線上點綴著幾朵白雲。 |
![]() 鏡頭掃過一座高樓林立的城市景觀...鏡頭掃過一座高樓林立的城市景觀,中間有一座圓形建築。鏡頭從左向右移動,展示了建築物的頂部和中間的圓形建築。建築物有各種灰色和白色的色調,圓形建築的屋頂是綠色的。拍攝角度較高,俯瞰著城市。光線明亮,太陽從左上方照射下來,建築物投下陰影。該場景是計算機生成的圖像。 |
![]() 一個男人走向窗戶,向外張望,然後轉過身來...一個男人走向窗戶,向外張望,然後轉過身來。他留著黑色短髮,皮膚黝黑,穿著棕色外套,裡面圍著紅灰色圍巾。他從左向右走向窗戶,目光盯著外面的某個東西。鏡頭從後面以適中的距離跟隨他。房間光線明亮,白色的牆壁和一扇被白色窗簾遮住的大窗戶。當他走近窗戶時,他微微向左轉頭,然後又向右轉頭。然後他整個身體向右轉,面向窗戶。他站在窗戶前時,鏡頭保持靜止。該場景是真實的鏡頭畫面。 |
![]() 兩名穿著深藍色制服和配套帽子的警察...兩名穿著深藍色制服和配套帽子的警察從畫面左側的門口走進一個光線昏暗的房間。第一名警察留著棕色短髮,有小鬍子,先走進來,後面跟著他的搭檔,搭檔剃著光頭,留著山羊鬍。兩名警察表情嚴肅,穩步向房間深處走去。鏡頭保持靜止,在他們進來時從略低的角度拍攝。房間的牆壁是裸露的磚牆,天花板是波紋金屬板,背景中可以看到一扇帶柵欄的窗戶。光線較暗,在警察臉上投下陰影,強調了嚴峻的氛圍。該場景似乎來自電影或電視劇。 |
![]() 一個留著棕色短髮、穿著栗色無袖上衣的女人...一個留著棕色短髮、穿著栗色無袖上衣和銀色項鍊的女人一邊說話一邊穿過房間,然後一個留著粉色頭髮、穿著白色襯衫的女人出現在門口大喊。第一個女人從左向右走,表情嚴肅;她皮膚白皙,眉毛微微皺起。第二個女人站在門口,張著嘴大喊;她皮膚白皙,眼睛睜得很大。房間光線昏暗,背景中可以看到一個書架。鏡頭跟著第一個女人走,然後切換到第二個女人臉的特寫。該場景是真實的鏡頭畫面。 |
🚀 快速開始
你可以在此處獲取該模型的代碼庫。在遵循許可證的前提下使用該模型。
✨ 主要特性
- 首個基於DiT的視頻生成模型,可即時生成高質量視頻。
- 能生成768x512分辨率、24 FPS的視頻,速度極快。
- 在大規模多樣化視頻數據集上訓練,可生成具有逼真和多樣化內容的高分辨率視頻。
- 提供文本到視頻以及圖像+文本到視頻兩種用例的模型。
📦 安裝指南
代碼庫在Python 3.10.5、CUDA版本12.2環境下進行了測試,支持PyTorch >= 2.1.2。
git clone https://github.com/Lightricks/LTX-Video.git
cd LTX-Video
# 創建虛擬環境
python -m venv env
source env/bin/activate
python -m pip install -e .\[inference-script\]
然後,從Hugging Face下載模型:
from huggingface_hub import snapshot_download
model_path = 'PATH' # 保存下載的檢查點的本地目錄
snapshot_download("Lightricks/LTX-Video", local_dir=model_path, local_dir_use_symlinks=False, repo_type='model')
💻 使用示例
基礎用法
文本到視頻生成
python inference.py --ckpt_dir 'PATH' --prompt "PROMPT" --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED
圖像到視頻生成
python inference.py --ckpt_dir 'PATH' --prompt "PROMPT" --input_image_path IMAGE_PATH --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED
高級用法
使用Diffusers庫進行文本到視頻生成
import torch
from diffusers import LTXPipeline
from diffusers.utils import export_to_video
pipe = LTXPipeline.from_pretrained("Lightricks/LTX-Video", torch_dtype=torch.bfloat16)
pipe.to("cuda")
prompt = "A woman with long brown hair and light skin smiles at another woman with long blonde hair. The woman with brown hair wears a black jacket and has a small, barely noticeable mole on her right cheek. The camera angle is a close-up, focused on the woman with brown hair's face. The lighting is warm and natural, likely from the setting sun, casting a soft glow on the scene. The scene appears to be real-life footage"
negative_prompt = "worst quality, inconsistent motion, blurry, jittery, distorted"
video = pipe(
prompt=prompt,
negative_prompt=negative_prompt,
width=704,
height=480,
num_frames=161,
num_inference_steps=50,
).frames[0]
export_to_video(video, "output.mp4", fps=24)
使用Diffusers庫進行圖像到視頻生成
import torch
from diffusers import LTXImageToVideoPipeline
from diffusers.utils import export_to_video, load_image
pipe = LTXImageToVideoPipeline.from_pretrained("Lightricks/LTX-Video", torch_dtype=torch.bfloat16)
pipe.to("cuda")
image = load_image(
"https://huggingface.co/datasets/a-r-r-o-w/tiny-meme-dataset-captioned/resolve/main/images/8.png"
)
prompt = "A young girl stands calmly in the foreground, looking directly at the camera, as a house fire rages in the background. Flames engulf the structure, with smoke billowing into the air. Firefighters in protective gear rush to the scene, a fire truck labeled '38' visible behind them. The girl's neutral expression contrasts sharply with the chaos of the fire, creating a poignant and emotionally charged scene."
negative_prompt = "worst quality, inconsistent motion, blurry, jittery, distorted"
video = pipe(
image=image,
prompt=prompt,
negative_prompt=negative_prompt,
width=704,
height=480,
num_frames=161,
num_inference_steps=50,
).frames[0]
export_to_video(video, "output.mp4", fps=24)
📚 詳細文檔
模型詳情
屬性 | 詳情 |
---|---|
開發者 | Lightricks |
模型類型 | 基於擴散模型的文本到視頻和圖像到視頻生成模型 |
語言 | 英語 |
使用說明
直接使用
你可以在許可證允許的範圍內使用該模型。
一般提示
⚠️ 重要提示
- 模型適用於分辨率能被32整除且幀數能被8 + 1(例如257)整除的情況。如果分辨率或幀數不能被32或8 + 1整除,輸入將用 -1 填充,然後裁剪到所需的分辨率和幀數。
- 模型在分辨率低於720 x 1280且幀數少於257時效果最佳。
- 提示詞應為英語,越詳細越好。一個好的提示詞示例如下:
The turquoise waves crash against the dark, jagged rocks of the shore, sending white foam spraying into the air. The scene is dominated by the stark contrast between the bright blue water and the dark, almost black rocks. The water is a clear, turquoise color, and the waves are capped with white foam. The rocks are dark and jagged, and they are covered in patches of green moss. The shore is lined with lush green vegetation, including trees and bushes. In the background, there are rolling hills covered in dense forest. The sky is cloudy, and the light is dim.
在線演示
你可以通過以下鏈接立即訪問該模型:
ComfyUI使用方法
若要在ComfyUI中使用我們的模型,請遵循專用ComfyUI倉庫中的說明。
侷限性
⚠️ 重要提示
- 該模型並非用於提供事實信息,也無法做到這一點。
- 作為一個統計模型,該檢查點可能會放大現有的社會偏見。
- 模型可能無法完美生成與提示詞匹配的視頻。
- 模型對提示詞的遵循程度很大程度上受提示風格的影響。
📄 許可證
該模型的使用需遵循此處的許可證。
Xclip Base Patch32
MIT
X-CLIP是CLIP的擴展版本,用於通用視頻語言理解,通過對比學習在(視頻,文本)對上訓練,適用於視頻分類和視頻-文本檢索等任務。
文本生成視頻
Transformers 英語

X
microsoft
309.80k
84
LTX Video
其他
首個基於DiT的視頻生成模型,能夠即時生成高質量視頻,支持文本轉視頻和圖像+文本轉視頻兩種場景。
文本生成視頻 英語
L
Lightricks
165.42k
1,174
Wan2.1 14B VACE GGUF
Apache-2.0
Wan2.1-VACE-14B模型的GGUF格式版本,主要用於文本到視頻的生成任務。
文本生成視頻
W
QuantStack
146.36k
139
Animatediff Lightning
Openrail
極速文本生成視頻模型,生成速度比原版AnimateDiff快十倍以上
文本生成視頻
A
ByteDance
144.00k
925
V Express
V-Express是一個基於音頻和麵部關鍵點條件生成的視頻生成模型,能夠將音頻輸入轉換為動態視頻輸出。
文本生成視頻 英語
V
tk93
118.36k
85
Cogvideox 5b
其他
CogVideoX是源自清影的視頻生成模型的開源版本,提供高質量的視頻生成能力。
文本生成視頻 英語
C
THUDM
92.32k
611
Llava NeXT Video 7B Hf
LLaVA-NeXT-Video是一個開源多模態聊天機器人,通過視頻和圖像數據混合訓練獲得優秀的視頻理解能力,在VideoMME基準上達到開源模型SOTA水平。
文本生成視頻
Transformers 英語

L
llava-hf
65.95k
88
Wan2.1 T2V 14B Diffusers
Apache-2.0
萬2.1是一套全面開放的視頻基礎模型,旨在突破視頻生成的邊界,支持中英文文本生成視頻、圖像生成視頻等多種任務。
文本生成視頻 支持多種語言
W
Wan-AI
48.65k
24
Wan2.1 T2V 1.3B Diffusers
Apache-2.0
萬2.1是一套全面開放的視頻基礎模型,具備頂尖性能、支持消費級GPU、多任務支持、視覺文本生成和高效視頻VAE等特點。
文本生成視頻 支持多種語言
W
Wan-AI
45.29k
38
Wan2.1 T2V 14B
Apache-2.0
萬2.1是一套綜合性開源視頻基礎模型,具備文本生成視頻、圖像生成視頻、視頻編輯、文本生成圖像及視頻生成音頻等多任務能力,支持中英雙語文本生成。
文本生成視頻 支持多種語言
W
Wan-AI
44.88k
1,238
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98