LTX Video 0.9.5
模型概述
LTX-視頻是首個基於DiT的視頻生成模型,能夠以1216×704分辨率、30幀每秒的速度生成高質量視頻。該模型在多樣化視頻的大規模數據集上訓練,能夠生成高分辨率、內容真實多樣的視頻。
模型特點
高分辨率即時生成
能夠以1216×704分辨率、30幀每秒的速度生成視頻,速度比觀看速度還快
多樣化場景支持
能夠生成內容真實多樣的視頻,支持人物、自然景觀、城市景觀等多種場景
多模型選擇
提供不同參數規模的模型版本,滿足不同硬件條件下的使用需求
雙模式支持
同時支持文本轉視頻及圖像+文本轉視頻兩種生成模式
模型能力
文本到視頻生成
圖像到視頻生成
高分辨率視頻生成
即時視頻生成
使用案例
影視製作
電影預告片生成
根據劇本描述自動生成電影預告片片段
可生成具有電影質感的視頻片段
場景預可視化
在正式拍攝前生成場景預覽
幫助導演和攝影師提前規劃鏡頭
廣告創意
廣告視頻生成
根據產品描述生成廣告視頻
快速生成多種創意方案供選擇
遊戲開發
遊戲過場動畫
根據劇情描述生成遊戲過場動畫
節省動畫製作時間和成本
🚀 LTX-Video模型卡片
LTX-Video是首個基於DiT的視頻生成模型,能夠即時生成高質量視頻。它可以以1216×704的分辨率、30 FPS的幀率快速生成視頻,速度之快甚至超過觀看速度。該模型在大規模多樣化視頻數據集上進行訓練,能夠生成具有逼真且豐富內容的高分辨率視頻。我們為文本到視頻以及圖像+文本到視頻的應用場景都提供了相應模型。
🚀 快速開始
本模型可通過以下方式快速使用:
- 在線演示:通過以下鏈接直接訪問模型:
- ComfyUI:若要在ComfyUI中使用我們的模型,請遵循專用ComfyUI倉庫中的說明。
- 本地運行:按照以下步驟在本地運行模型。
✨ 主要特性
- 即時高質量視頻生成:能夠即時生成高分辨率、高質量的視頻,生成速度快。
- 多樣化應用場景:支持文本到視頻以及圖像+文本到視頻兩種生成模式。
- 多平臺支持:可通過在線演示、ComfyUI以及本地運行等多種方式使用。
📦 安裝指南
代碼庫在Python 3.10.5、CUDA版本12.2環境下進行了測試,支持PyTorch >= 2.1.2。
git clone https://github.com/Lightricks/LTX-Video.git
cd LTX-Video
# 創建虛擬環境
python -m venv env
source env/bin/activate
python -m pip install -e .\[inference-script\]
💻 使用示例
基礎用法
文本到視頻生成
python inference.py --prompt "PROMPT" --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED --pipeline_config ltxv-13b-0.9.7-dev.yaml
圖像到視頻生成
python inference.py --prompt "PROMPT" --input_image_path IMAGE_PATH --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED --pipeline_config ltxv-13b-0.9.7-dev.yaml
高級用法
使用Diffusers庫進行文本到視頻生成
import torch
from diffusers import LTXPipeline
from diffusers.utils import export_to_video
pipe = LTXPipeline.from_pretrained("Lightricks/LTX-Video", torch_dtype=torch.bfloat16)
pipe.to("cuda")
prompt = "A woman with long brown hair and light skin smiles at another woman with long blonde hair. The woman with brown hair wears a black jacket and has a small, barely noticeable mole on her right cheek. The camera angle is a close-up, focused on the woman with brown hair's face. The lighting is warm and natural, likely from the setting sun, casting a soft glow on the scene. The scene appears to be real-life footage"
negative_prompt = "worst quality, inconsistent motion, blurry, jittery, distorted"
video = pipe(
prompt=prompt,
negative_prompt=negative_prompt,
width=704,
height=480,
num_frames=161,
num_inference_steps=50,
).frames[0]
export_to_video(video, "output.mp4", fps=24)
使用Diffusers庫進行圖像到視頻生成
import torch
from diffusers import LTXImageToVideoPipeline
from diffusers.utils import export_to_video, load_image
pipe = LTXImageToVideoPipeline.from_pretrained("Lightricks/LTX-Video", torch_dtype=torch.bfloat16)
pipe.to("cuda")
image = load_image(
"https://huggingface.co/datasets/a-r-r-o-w/tiny-meme-dataset-captioned/resolve/main/images/8.png"
)
prompt = "A young girl stands calmly in the foreground, looking directly at the camera, as a house fire rages in the background. Flames engulf the structure, with smoke billowing into the air. Firefighters in protective gear rush to the scene, a fire truck labeled '38' visible behind them. The girl's neutral expression contrasts sharply with the chaos of the fire, creating a poignant and emotionally charged scene."
negative_prompt = "worst quality, inconsistent motion, blurry, jittery, distorted"
video = pipe(
image=image,
prompt=prompt,
negative_prompt=negative_prompt,
width=704,
height=480,
num_frames=161,
num_inference_steps=50,
).frames[0]
export_to_video(video, "output.mp4", fps=24)
📚 詳細文檔
模型信息
屬性 | 詳情 |
---|---|
模型類型 | 基於擴散的文本到視頻和圖像到視頻生成模型 |
開發團隊 | Lightricks |
支持語言 | 英語 |
模型版本
模型 | 版本 | 說明 | inference.py配置 | ComfyUI工作流(推薦) |
---|---|---|---|---|
ltxv-13b | 0.9.7 | 最高質量,需要更多VRAM | ltxv-13b-0.9.7-dev.yaml | ltxv-13b-i2v-base.json |
ltxv-13b-fp8 | 0.9.7 | 量化模型 | 即將推出 | ltxv-13b-i2v-base-fp8.json |
ltxv-2b | 0.9.6 | 質量良好,比ltxv-13b需要更少的VRAM | ltxv-2b-0.9.6-dev.yaml | ltxvideo-i2v.json |
ltxv-2b-distilled | 0.9.6 | 快15倍,支持即時生成,所需步驟更少,無需STG/CFG | ltxv-2b-0.9.6-distilled.yaml | ltxvideo-i2v-distilled.json |
使用說明
直接使用
你可以在許可證允許的範圍內使用該模型:
- 2B版本0.9:許可證
- 2B版本0.9.1:許可證
- 2B版本0.9.5:許可證
- 2B版本0.9.6-dev:許可證
- 2B版本0.9.6-distilled:許可證
- 13B版本0.9.7-dev:許可證
- 13B版本0.9.7-dev-fp8:許可證
- 時間上採樣器版本0.9.7:許可證
- 空間上採樣器版本0.9.7:許可證
通用提示
- 模型適用於分辨率能被32整除、幀數能被8 + 1(例如257)整除的情況。如果分辨率或幀數不能被32或8 + 1整除,輸入將用 -1 填充,然後裁剪到所需的分辨率和幀數。
- 模型在分辨率低於720 x 1280、幀數少於257時效果最佳。
- 提示詞應為英語,越詳細越好。例如:
The turquoise waves crash against the dark, jagged rocks of the shore, sending white foam spraying into the air. The scene is dominated by the stark contrast between the bright blue water and the dark, almost black rocks. The water is a clear, turquoise color, and the waves are capped with white foam. The rocks are dark and jagged, and they are covered in patches of green moss. The shore is lined with lush green vegetation, including trees and bushes. In the background, there are rolling hills covered in dense forest. The sky is cloudy, and the light is dim.
模型示例
示例 | 詳情 |
---|---|
![]() 一位留著棕色長髮、皮膚白皙的女子對著另一位留著金色長髮的女子微笑...一位留著棕色長髮、皮膚白皙的女子對著另一位留著金色長髮的女子微笑。留著棕色頭髮的女子穿著黑色夾克,右臉頰上有一顆幾乎難以察覺的小痣。相機角度為特寫,聚焦在留著棕色頭髮的女子臉上。光線溫暖自然,可能來自夕陽,給場景披上了一層柔和的光芒。該場景看起來像是真實的鏡頭。 |
展示了人物微笑的場景 |
![]() 一名女子在夜晚從停在城市街道上的白色吉普車上走開...一名女子在夜晚從停在城市街道上的白色吉普車上走開,然後走上樓梯並敲門。這名女子穿著深色夾克和牛仔褲,背對著相機,從停在街道左側的吉普車上走開;她步伐平穩,手臂在身體兩側微微擺動;街道燈光昏暗,路燈在潮溼的路面上投下一片片光影;一名穿著深色夾克和牛仔褲的男子朝相反方向走過吉普車;相機從後面跟隨女子走上一組樓梯,朝著一扇綠色門的建築物走去;她走到樓梯頂部向左轉,繼續朝著建築物走去;她走到門口,用右手敲門;相機保持靜止,聚焦在門口;該場景是真實拍攝的鏡頭。 |
呈現了人物在夜晚街道的活動 |
![]() 一位梳著髮髻、穿著帶亮片黑色連衣裙和珍珠耳環的金髮女子...一位梳著髮髻、穿著帶亮片黑色連衣裙和珍珠耳環的金髮女子,面帶悲傷地低頭。相機保持靜止,聚焦在女子臉上。光線昏暗,在她臉上投下柔和的陰影。該場景似乎來自電影或電視劇。 |
體現了人物的悲傷情緒 |
![]() 相機掃過一片被雪覆蓋的山脈...相機掃過一片被雪覆蓋的山脈,展現出一片廣闊的雪山和山谷。山脈被厚厚的積雪覆蓋,有些地方几乎呈白色,而有些地方則略帶灰色調。山峰參差不齊,有的陡峭地聳立在天空中,有的則較為圓潤。山谷又深又窄,陡峭的山坡也被雪覆蓋。前景中的樹木大多光禿禿的,只有少數樹枝上還留著幾片葉子。天空陰沉沉的,厚厚的雲層遮住了太陽。整體給人一種寧靜祥和的感覺,被雪覆蓋的山脈見證了大自然的力量和美麗。 |
展示了雪山的壯麗景色 |
![]() 一位皮膚白皙、穿著藍色夾克和帶面紗黑色帽子的女子...一位皮膚白皙、穿著藍色夾克和帶面紗黑色帽子的女子,向下看向右側,然後在說話時又抬起頭;她留著棕色髮髻,淺棕色眉毛,夾克裡面穿著白色領襯衫;相機在她說話時一直聚焦在她臉上;背景模糊,但可以看到樹木和穿著古裝的人;該場景是真實拍攝的鏡頭。 |
呈現了人物的動作和表情 |
![]() 一個男人在光線昏暗的房間裡對著一部老式電話交談...一個男人在光線昏暗的房間裡對著一部老式電話交談,掛斷電話後,悲傷地低下頭。他用右手將黑色旋轉電話貼在右耳旁,左手拿著一個裝有琥珀色液體的岩石杯。他穿著棕色西裝外套,裡面是白色襯衫,左手無名指上戴著一枚金戒指。他的短髮梳理得很整齊,皮膚白皙,眼睛周圍有明顯的皺紋。相機保持靜止,聚焦在他的臉和上半身。房間很暗,只有左邊屏幕外的一個暖光源照亮,在他身後的牆上投下陰影。該場景似乎來自電影。 |
體現了人物在特定環境中的狀態 |
![]() 一名獄警打開牢房的門...一名獄警打開牢房的門,發現一個年輕人和一個女人坐在桌旁。獄警穿著深藍色制服,左胸上有一個徽章,用右手拿著鑰匙打開牢房門並拉開;他留著棕色短髮,皮膚白皙,表情平淡。年輕人穿著黑白條紋襯衫,坐在鋪著白色桌布的桌子旁,面向女人;他留著棕色短髮,皮膚白皙,表情平淡。女人穿著深藍色襯衫,坐在年輕人對面,臉轉向他;她留著金色短髮,皮膚白皙。相機保持靜止,從中間距離拍攝,位置略在獄警右側。房間光線昏暗,一盞燈具照亮了桌子和兩個人物。牆壁由巨大的灰色混凝土塊構成,背景中可以看到一扇金屬門。該場景是真實拍攝的鏡頭。 |
展示了特定場景下的人物互動 |
![]() 一位臉上有血、穿著白色背心的女子...一位臉上有血、穿著白色背心的女子向下看向右側,然後在說話時又抬起頭。她留著深色頭髮,向後梳起,皮膚白皙,臉和胸部都沾滿了血。相機角度為特寫,聚焦在女子的臉和上半身。光線昏暗,呈藍色調,營造出一種憂鬱而緊張的氛圍。該場景似乎來自電影或電視劇。 |
呈現了具有緊張氛圍的場景 |
![]() 一位頭髮花白、留著鬍鬚、穿著灰色襯衫的男子...一位頭髮花白、留著鬍鬚、穿著灰色襯衫的男子向下看向右側,然後把頭轉向左側。相機角度為特寫,聚焦在男子臉上。光線昏暗,帶有綠色色調。該場景看起來是真實的鏡頭。 |
展示了人物的動作 |
![]() 一條清澈的藍綠色河流穿過岩石峽谷...一條清澈的藍綠色河流穿過岩石峽谷,從一個小瀑布上傾瀉而下,在底部形成一個水池。河流是場景的主要焦點,清澈的河水倒映著周圍的樹木和岩石。峽谷壁陡峭多石,上面生長著一些植被。樹木大多是松樹,綠色的針葉與棕色和灰色的岩石形成鮮明對比。整個場景給人一種寧靜祥和的感覺。 |
展示了自然景觀的美麗 |
![]() 一名穿著西裝的男子走進房間,與坐在沙發上的兩名女子交談...一名穿著西裝的男子走進房間,與坐在沙發上的兩名女子交談。這名男子穿著深色西裝,繫著金色領帶,從左邊走進房間,朝畫面中心走去。他留著灰色短髮,皮膚白皙,表情嚴肅。他走近沙發時,右手放在椅子背上。兩名女子坐在背景中的淺色沙發上。左邊的女子穿著淺藍色毛衣,留著金色短髮。右邊的女子穿著白色毛衣,留著金色短髮。相機保持靜止,在男子走進房間時聚焦在他身上。房間光線明亮,溫暖的色調從牆壁和傢俱上反射出來。該場景似乎來自電影或電視劇。 |
呈現了人物在室內的互動 |
![]() 海浪拍打著海岸線參差不齊的岩石...海浪拍打著海岸線參差不齊的岩石,激起高高的浪花。岩石呈深灰色,邊緣鋒利,有很深的裂縫。海水是清澈的藍綠色,海浪拍打岩石的地方泛起白色泡沫。天空是淺灰色的,地平線上點綴著幾朵白雲。 |
展示了海邊的壯觀景象 |
![]() 相機掃過一座有圓形建築的城市景觀...相機掃過一座有圓形建築的城市景觀。相機從左向右移動,展示了建築物的頂部和中間的圓形建築。建築物有各種灰色和白色的色調,圓形建築有綠色的屋頂。相機角度較高,俯瞰著城市。光線明亮,太陽從左上方照射,建築物投下陰影。該場景是計算機生成的圖像。 |
展示了城市景觀的畫面 |
![]() 一名男子走向窗戶,向外張望,然後轉身...一名男子走向窗戶,向外張望,然後轉身。他留著黑色短髮,皮膚黝黑,穿著棕色外套,裡面圍著紅灰色圍巾。他從左向右走向窗戶,目光盯著外面的某個東西。相機從後面以中等距離跟隨他。房間光線明亮,白色牆壁,一扇大窗戶被白色窗簾遮住。當他走近窗戶時,他微微向左轉頭,然後又向右轉頭。然後他整個身體向右轉,面向窗戶。相機在他站在窗戶前時保持靜止。該場景是真實拍攝的鏡頭。 |
呈現了人物的動作和場景 |
![]() 兩名穿著深藍色制服和配套帽子的警察...兩名穿著深藍色制服和配套帽子的警察從畫面左側的門口走進一個光線昏暗的房間。第一名警察留著棕色短髮,有小鬍子,先走進來,後面跟著他的搭檔,搭檔剃著光頭,留著山羊鬍。兩名警察表情嚴肅,步伐穩健地向房間深處走去。相機保持靜止,在他們走進來時從略低的角度拍攝。房間有裸露的磚牆和波紋金屬天花板,背景中可以看到一扇帶柵欄的窗戶。光線較暗,在警察臉上投下陰影,強調了嚴峻的氛圍。該場景似乎來自電影或電視劇。 |
展示了特定場景下的人物形象 |
![]() 一位留著棕色短髮、穿著栗色無袖上衣的女子...一位留著棕色短髮、穿著栗色無袖上衣和銀色項鍊的女子邊走邊說話穿過房間,然後一位留著粉色頭髮、穿著白色襯衫的女子出現在門口大喊。第一位女子從左向右走,表情嚴肅;她皮膚白皙,眉毛微微皺起。第二位女子站在門口,張著嘴大喊;她皮膚白皙,眼睛睜得很大。房間光線昏暗,背景中可以看到一個書架。相機跟隨第一位女子走動,然後切換到第二位女子臉部的特寫。該場景是真實拍攝的鏡頭。 |
呈現了人物的動作和互動 |
🔧 技術細節
本模型基於擴散模型,在大規模多樣化視頻數據集上進行訓練,以實現高質量的視頻生成。具體技術細節可參考代碼庫:LTX-Video。
📄 許可證
本模型使用的許可證信息如下:
- 2B版本0.9:許可證
- 2B版本0.9.1:許可證
- 2B版本0.9.5:許可證
- 2B版本0.9.6-dev:許可證
- 2B版本0.9.6-distilled:許可證
- 13B版本0.9.7-dev:許可證
- 13B版本0.9.7-dev-fp8:許可證
- 時間上採樣器版本0.9.7:許可證
- 空間上採樣器版本0.9.7:許可證
⚠️ 重要提示
- 本模型並非用於提供事實信息,也無法保證提供的信息準確無誤。
- 作為統計模型,該檢查點可能會放大現有的社會偏見。
- 模型可能無法完美生成與提示詞完全匹配的視頻。
- 模型對提示詞的遵循程度受提示風格的影響較大。
💡 使用建議
- 確保輸入的分辨率和幀數符合模型要求,以獲得更好的效果。
- 使用詳細的英語提示詞,有助於生成更符合預期的視頻。
- 在使用模型時,注意許可證的使用範圍和限制。
Xclip Base Patch32
MIT
X-CLIP是CLIP的擴展版本,用於通用視頻語言理解,通過對比學習在(視頻,文本)對上訓練,適用於視頻分類和視頻-文本檢索等任務。
文本生成視頻
Transformers 英語

X
microsoft
309.80k
84
LTX Video
其他
首個基於DiT的視頻生成模型,能夠即時生成高質量視頻,支持文本轉視頻和圖像+文本轉視頻兩種場景。
文本生成視頻 英語
L
Lightricks
165.42k
1,174
Wan2.1 14B VACE GGUF
Apache-2.0
Wan2.1-VACE-14B模型的GGUF格式版本,主要用於文本到視頻的生成任務。
文本生成視頻
W
QuantStack
146.36k
139
Animatediff Lightning
Openrail
極速文本生成視頻模型,生成速度比原版AnimateDiff快十倍以上
文本生成視頻
A
ByteDance
144.00k
925
V Express
V-Express是一個基於音頻和麵部關鍵點條件生成的視頻生成模型,能夠將音頻輸入轉換為動態視頻輸出。
文本生成視頻 英語
V
tk93
118.36k
85
Cogvideox 5b
其他
CogVideoX是源自清影的視頻生成模型的開源版本,提供高質量的視頻生成能力。
文本生成視頻 英語
C
THUDM
92.32k
611
Llava NeXT Video 7B Hf
LLaVA-NeXT-Video是一個開源多模態聊天機器人,通過視頻和圖像數據混合訓練獲得優秀的視頻理解能力,在VideoMME基準上達到開源模型SOTA水平。
文本生成視頻
Transformers 英語

L
llava-hf
65.95k
88
Wan2.1 T2V 14B Diffusers
Apache-2.0
萬2.1是一套全面開放的視頻基礎模型,旨在突破視頻生成的邊界,支持中英文文本生成視頻、圖像生成視頻等多種任務。
文本生成視頻 支持多種語言
W
Wan-AI
48.65k
24
Wan2.1 T2V 1.3B Diffusers
Apache-2.0
萬2.1是一套全面開放的視頻基礎模型,具備頂尖性能、支持消費級GPU、多任務支持、視覺文本生成和高效視頻VAE等特點。
文本生成視頻 支持多種語言
W
Wan-AI
45.29k
38
Wan2.1 T2V 14B
Apache-2.0
萬2.1是一套綜合性開源視頻基礎模型,具備文本生成視頻、圖像生成視頻、視頻編輯、文本生成圖像及視頻生成音頻等多任務能力,支持中英雙語文本生成。
文本生成視頻 支持多種語言
W
Wan-AI
44.88k
1,238
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98