LTX Video 0.9.7 Distilled
首個基於DiT架構的即時高質量視頻生成模型,支持1216×704分辨率30FPS生成
下載量 208
發布時間 : 5/14/2025
模型概述
基於擴散模型的文本/圖像轉視頻生成系統,通過大規模數據集訓練實現高清視頻即時生成
模型特點
即時高清生成
能以1216×704分辨率、30幀/秒的速度生成視頻,速度快於播放速度
雙模態輸入
同時支持文本提示和圖像輸入兩種生成模式
高質量輸出
通過大規模多樣化視頻數據集訓練,生成內容真實豐富的高清視頻
模型能力
文本轉視頻生成
圖像轉視頻生成
高分辨率視頻合成
即時視頻渲染
使用案例
創意內容生產
短視頻創作
根據文字描述自動生成創意短視頻內容
生成720P-1080P高清視頻
圖像動畫化
將靜態圖片轉化為動態視頻
保持原始構圖的同時添加合理動態效果
營銷素材製作
廣告視頻生成
快速生成產品展示視頻
支持多角度展示和場景切換
🚀 LTX-Video 0.9.7 蒸餾模型卡
LTX-Video 是首個基於 DiT 的視頻生成模型,能夠即時生成高質量視頻。它能以 1216×704 的分辨率、30 FPS 的幀率生成視頻,速度之快甚至超過人眼觀看速度。該模型在大規模多樣化視頻數據集上進行訓練,可生成具有逼真且豐富內容的高分辨率視頻。我們為文本到視頻以及圖像+文本到視頻的應用場景都提供了相應模型。

🚀 快速開始
本模型卡聚焦於與 LTX-Video 模型相關的模型,代碼庫可在 此處 獲取。
✨ 主要特性
- 即時高質量視頻生成:LTX-Video 是首個基於 DiT 的視頻生成模型,能夠即時生成高質量視頻,以 1216×704 分辨率、30 FPS 幀率生成視頻的速度極快。
- 大規模數據訓練:在大規模多樣化視頻數據集上進行訓練,可生成具有逼真且豐富內容的高分辨率視頻。
- 多場景支持:提供了適用於文本到視頻以及圖像+文本到視頻兩種應用場景的模型。
📦 安裝指南
本地運行
安裝
代碼庫在 Python 3.10.5、CUDA 版本 12.2 環境下進行了測試,支持 PyTorch >= 2.1.2。
git clone https://github.com/Lightricks/LTX-Video.git
cd LTX-Video
# 創建虛擬環境
python -m venv env
source env/bin/activate
python -m pip install -e .\[inference-script\]
💻 使用示例
直接使用
你可以在許可證允許的範圍內使用該模型:
- 2B 版本 0.9:許可證
- 2B 版本 0.9.1:許可證
- 2B 版本 0.9.5:許可證
- 2B 版本 0.9.6-dev:許可證
- 2B 版本 0.9.6 蒸餾版:許可證
- 13B 版本 0.9.7-dev:許可證
- 13B 版本 0.9.7-dev-fp8:許可證
- 13B 版本 0.9.7 蒸餾版:許可證
- 13B 版本 0.9.7 蒸餾版-lora128:許可證
- 時間上採樣器版本 0.9.7:許可證
- 空間上採樣器版本 0.9.7:許可證
通用提示
- 模型適用於分辨率能被 32 整除、幀數能被 8 + 1(例如 257)整除的情況。若分辨率或幀數不能被 32 或 8 + 1 整除,輸入將用 -1 填充,然後裁剪到所需的分辨率和幀數。
- 模型在分辨率低於 720 x 1280 且幀數少於 257 時效果最佳。
- 提示詞應為英文,越詳細越好。優質提示詞示例:
The turquoise waves crash against the dark, jagged rocks of the shore, sending white foam spraying into the air. The scene is dominated by the stark contrast between the bright blue water and the dark, almost black rocks. The water is a clear, turquoise color, and the waves are capped with white foam. The rocks are dark and jagged, and they are covered in patches of green moss. The shore is lined with lush green vegetation, including trees and bushes. In the background, there are rolling hills covered in dense forest. The sky is cloudy, and the light is dim.
在線演示
可通過以下鏈接立即訪問該模型:
ComfyUI
若要在 ComfyUI 中使用我們的模型,請遵循專用 ComfyUI 倉庫 中的說明。
本地運行
推理
若要使用我們的模型,請遵循 inference.py 中的推理代碼:
文本到視頻生成
python inference.py --prompt "PROMPT" --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED --pipeline_config configs/ltxv-13b-0.9.7-distilled.yaml
圖像到視頻生成
python inference.py --prompt "PROMPT" --input_image_path IMAGE_PATH --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED --pipeline_config configs/ltxv-13b-0.9.7-distilled.yaml
Diffusers 🧨
LTX Video 與 Diffusers Python 庫 兼容,支持文本到視頻和圖像到視頻的生成。在嘗試以下示例之前,請確保安裝了 diffusers
:
pip install -U git+https://github.com/huggingface/diffusers
現在,你可以運行以下示例(注意,上採樣階段是可選的,但建議使用):
文本到視頻
import torch
from diffusers import LTXConditionPipeline, LTXLatentUpsamplePipeline
from diffusers.pipelines.ltx.pipeline_ltx_condition import LTXVideoCondition
from diffusers.utils import export_to_video
pipe = LTXConditionPipeline.from_pretrained("Lightricks/LTX-Video-0.9.7-distilled", torch_dtype=torch.bfloat16)
pipe_upsample = LTXLatentUpsamplePipeline.from_pretrained("Lightricks/ltxv-spatial-upscaler-0.9.7", vae=pipe.vae, torch_dtype=torch.bfloat16)
pipe.to("cuda")
pipe_upsample.to("cuda")
pipe.vae.enable_tiling()
prompt = "The video depicts a winding mountain road covered in snow, with a single vehicle traveling along it. The road is flanked by steep, rocky cliffs and sparse vegetation. The landscape is characterized by rugged terrain and a river visible in the distance. The scene captures the solitude and beauty of a winter drive through a mountainous region."
negative_prompt = "worst quality, inconsistent motion, blurry, jittery, distorted"
expected_height, expected_width = 704, 512
downscale_factor = 2 / 3
num_frames = 121
# 第一部分:以較小分辨率生成視頻
downscaled_height, downscaled_width = int(expected_height * downscale_factor), int(expected_width * downscale_factor)
latents = pipe(
conditions=None,
prompt=prompt,
negative_prompt=negative_prompt,
width=downscaled_width,
height=downscaled_height,
num_frames=num_frames,
num_inference_steps=7,
decode_timestep = 0.05,
guidnace_scale=1.0,
decode_noise_scale = 0.025,
generator=torch.Generator().manual_seed(0),
output_type="latent",
).frames
# 第二部分:使用潛在上採樣器以較少推理步驟對生成的視頻進行上採樣
# 可用的潛在上採樣器將高度/寬度上採樣 2 倍
upscaled_height, upscaled_width = downscaled_height * 2, downscaled_width * 2
upscaled_latents = pipe_upsample(
latents=latents,
output_type="latent"
).frames
# 第三部分:以較少步驟對經上採樣的視頻進行去噪以改善紋理(可選,但建議)
video = pipe(
prompt=prompt,
negative_prompt=negative_prompt,
width=upscaled_width,
height=upscaled_height,
num_frames=num_frames,
denoise_strength=0.3, # 實際上,在 10 步推理中進行 4 步
num_inference_steps=10,
latents=upscaled_latents,
decode_timestep = 0.05,
guidnace_scale=1.0,
decode_noise_scale = 0.025,
image_cond_noise_scale=0.025,
generator=torch.Generator().manual_seed(0),
output_type="pil",
).frames[0]
# 第四部分:將視頻下采樣到預期分辨率
video = [frame.resize((expected_width, expected_height)) for frame in video]
export_to_video(video, "output.mp4", fps=24)
圖像到視頻
import torch
from diffusers import LTXConditionPipeline, LTXLatentUpsamplePipeline
from diffusers.pipelines.ltx.pipeline_ltx_condition import LTXVideoCondition
from diffusers.utils import export_to_video, load_image
pipe = LTXConditionPipeline.from_pretrained("Lightricks/LTX-Video-0.9.7-distilled", torch_dtype=torch.bfloat16)
pipe_upsample = LTXLatentUpsamplePipeline.from_pretrained("Lightricks/ltxv-spatial-upscaler-0.9.7", vae=pipe.vae, torch_dtype=torch.bfloat16)
pipe.to("cuda")
pipe_upsample.to("cuda")
pipe.vae.enable_tiling()
image = load_image("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/penguin.png")
video = [image]
condition1 = LTXVideoCondition(video=video, frame_index=0)
prompt = "The video depicts a winding mountain road covered in snow, with a single vehicle traveling along it. The road is flanked by steep, rocky cliffs and sparse vegetation. The landscape is characterized by rugged terrain and a river visible in the distance. The scene captures the solitude and beauty of a winter drive through a mountainous region."
negative_prompt = "worst quality, inconsistent motion, blurry, jittery, distorted"
expected_height, expected_width = 832, 480
downscale_factor = 2 / 3
num_frames = 96
# 第一部分:以較小分辨率生成視頻
downscaled_height, downscaled_width = int(expected_height * downscale_factor), int(expected_width * downscale_factor)
downscaled_height, downscaled_width = round_to_nearest_resolution_acceptable_by_vae(downscaled_height, downscaled_width)
latents = pipe(
conditions=[condition1],
prompt=prompt,
negative_prompt=negative_prompt,
width=downscaled_width,
height=downscaled_height,
num_frames=num_frames,
num_inference_steps=7,
guidnace_scale=1.0,
decode_timestep = 0.05,
decode_noise_scale = 0.025,
generator=torch.Generator().manual_seed(0),
output_type="latent",
).frames
# 第二部分:使用潛在上採樣器以較少推理步驟對生成的視頻進行上採樣
# 可用的潛在上採樣器將高度/寬度上採樣 2 倍
upscaled_height, upscaled_width = downscaled_height * 2, downscaled_width * 2
upscaled_latents = pipe_upsample(
latents=latents,
output_type="latent"
).frames
# 第三部分:以較少步驟對經上採樣的視頻進行去噪以改善紋理(可選,但建議)
video = pipe(
conditions=[condition1],
prompt=prompt,
negative_prompt=negative_prompt,
width=upscaled_width,
height=upscaled_height,
num_frames=num_frames,
denoise_strength=0.3, # 實際上,在 10 步推理中進行 4 步
num_inference_steps=10,
guidnace_scale=1.0,
latents=upscaled_latents,
decode_timestep = 0.05,
decode_noise_scale = 0.025,
image_cond_noise_scale=0.025,
generator=torch.Generator().manual_seed(0),
output_type="pil",
).frames[0]
# 第四部分:將視頻下采樣到預期分辨率
video = [frame.resize((expected_width, expected_height)) for frame in video]
export_to_video(video, "output.mp4", fps=24)
視頻到視頻
import torch
from diffusers import LTXConditionPipeline, LTXLatentUpsamplePipeline
from diffusers.pipelines.ltx.pipeline_ltx_condition import LTXVideoCondition
from diffusers.utils import export_to_video, load_video
pipe = LTXConditionPipeline.from_pretrained("Lightricks/LTX-Video-0.9.7-distilled", torch_dtype=torch.bfloat16)
pipe_upsample = LTXLatentUpsamplePipeline.from_pretrained("Lightricks/ltxv-spatial-upscaler-0.9.7", vae=pipe.vae, torch_dtype=torch.bfloat16)
pipe.to("cuda")
pipe_upsample.to("cuda")
pipe.vae.enable_tiling()
def round_to_nearest_resolution_acceptable_by_vae(height, width):
height = height - (height % pipe.vae_temporal_compression_ratio)
width = width - (width % pipe.vae_temporal_compression_ratio)
return height, width
video = load_video(
"https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/cosmos/cosmos-video2world-input-vid.mp4"
)[:21] # 僅使用前 21 幀作為條件
condition1 = LTXVideoCondition(video=video, frame_index=0)
prompt = "The video depicts a winding mountain road covered in snow, with a single vehicle traveling along it. The road is flanked by steep, rocky cliffs and sparse vegetation. The landscape is characterized by rugged terrain and a river visible in the distance. The scene captures the solitude and beauty of a winter drive through a mountainous region."
negative_prompt = "worst quality, inconsistent motion, blurry, jittery, distorted"
expected_height, expected_width = 768, 1152
downscale_factor = 2 / 3
num_frames = 161
# 第一部分:以較小分辨率生成視頻
downscaled_height, downscaled_width = int(expected_height * downscale_factor), int(expected_width * downscale_factor)
downscaled_height, downscaled_width = round_to_nearest_resolution_acceptable_by_vae(downscaled_height, downscaled_width)
latents = pipe(
conditions=[condition1],
prompt=prompt,
negative_prompt=negative_prompt,
width=downscaled_width,
height=downscaled_height,
num_frames=num_frames,
num_inference_steps=7,
guidnace_scale=1.0,
decode_timestep = 0.05,
decode_noise_scale = 0.025,
generator=torch.Generator().manual_seed(0),
output_type="latent",
).frames
# 第二部分:使用潛在上採樣器以較少推理步驟對生成的視頻進行上採樣
# 可用的潛在上採樣器將高度/寬度上採樣 2 倍
upscaled_height, upscaled_width = downscaled_height * 2, downscaled_width * 2
upscaled_latents = pipe_upsample(
latents=latents,
output_type="latent"
).frames
# 第三部分:以較少步驟對經上採樣的視頻進行去噪以改善紋理(可選,但建議)
video = pipe(
conditions=[condition1],
prompt=prompt,
negative_prompt=negative_prompt,
width=upscaled_width,
height=upscaled_height,
num_frames=num_frames,
denoise_strength=0.3, # 實際上,在 10 步推理中進行 4 步
num_inference_steps=10,
guidnace_scale=1.0,
latents=upscaled_latents,
decode_timestep = 0.05,
decode_noise_scale = 0.025,
image_cond_noise_scale=0.025,
generator=torch.Generator().manual_seed(0),
output_type="pil",
).frames[0]
# 第四部分:將視頻下采樣到預期分辨率
video = [frame.resize((expected_width, expected_height)) for frame in video]
export_to_video(video, "output.mp4", fps=24)
要了解更多信息,請查看 官方文檔。Diffusers 還支持使用 from_single_file()
方法直接從原始 LTX 檢查點加載模型。查看 此部分 以瞭解更多。
📚 詳細文檔
模型詳情
屬性 | 詳情 |
---|---|
開發者 | Lightricks |
模型類型 | 基於擴散的文本到視頻和圖像到視頻生成模型 |
語言 | 英語 |
模型與工作流
名稱 | 說明 | inference.py 配置 | ComfyUI 工作流(推薦) |
---|---|---|---|
ltxv-13b-0.9.7-dev | 最高質量,需要更多 VRAM | ltxv-13b-0.9.7-dev.yaml | ltxv-13b-i2v-base.json |
ltxv-13b-0.9.7-mix | 在同一多尺度渲染工作流中混合 ltxv-13b-dev 和 ltxv-13b 蒸餾版,以實現速度和質量的平衡 | N/A | ltxv-13b-i2v-mix.json |
ltxv-13b-0.9.7-distilled | 更快,VRAM 使用更少,與 13b 版本相比質量略有下降。適用於快速迭代 | ltxv-13b-0.9.7-distilled.yaml | ltxv-13b-dist-i2v-base.json |
ltxv-13b-0.9.7-distilled-lora128 | LoRA,使 ltxv-13b-dev 表現得像蒸餾模型 | N/A | N/A |
ltxv-13b-0.9.7-fp8 | ltxv-13b 的量化版本 | 即將推出 | ltxv-13b-i2v-base-fp8.json |
ltxv-13b-0.9.7-distilled-fp8 | ltxv-13b 蒸餾版的量化版本 | 即將推出 | ltxv-13b-dist-fp8-i2v-base.json |
ltxv-2b-0.9.6 | 質量良好,比 ltxv-13b 對 VRAM 的要求更低 | ltxv-2b-0.9.6-dev.yaml | ltxvideo-i2v.json |
ltxv-2b-0.9.6-distilled | 速度快 15 倍,支持即時處理,所需步驟更少,無需 STG/CFG | ltxv-2b-0.9.6-distilled.yaml | ltxvideo-i2v-distilled.json |
模型示例
![]() 一位留著棕色長髮、皮膚白皙的女性對著另一位留著金色長髮的女性微笑...一位留著棕色長髮、皮膚白皙的女性對著另一位留著金色長髮的女性微笑。留棕色頭髮的女性穿著黑色夾克,右臉頰上有一顆小到幾乎難以察覺的痣。相機視角為特寫,聚焦在留棕色頭髮女性的臉上。光線溫暖自然,可能來自夕陽,給場景披上了一層柔和的光芒。該場景看起來像是真實生活中的畫面。 |
![]() 一位女性在夜晚從停在城市街道上的白色吉普車旁走開...一位女性在夜晚從停在城市街道上的白色吉普車旁走開,然後走上樓梯並敲門。這位穿著深色夾克和牛仔褲的女性從停在街道左側的吉普車旁走開,背對著相機;她步伐平穩,手臂在身體兩側輕微擺動;街道燈光昏暗,路燈在潮溼的路面上投下一片片光亮;一位穿著深色夾克和牛仔褲的男性從相反方向走過吉普車;相機從後面跟隨女性走上通往一座有綠色門的建築物的樓梯;她到達樓梯頂部後向左轉,繼續朝建築物走去;她走到門前,用右手敲門;相機保持靜止,聚焦在門口。該場景看起來像是真實生活中的畫面。 |
![]() 一位梳著髮髻、留著金色頭髮的女性,穿著帶亮片的黑色連衣裙...一位梳著髮髻、留著金色頭髮的女性,穿著帶亮片的黑色連衣裙和珍珠耳環,面帶悲傷地低頭。相機保持靜止,聚焦在女性的臉上。光線昏暗,在她臉上投下柔和的陰影。該場景看起來像是來自電影或電視劇。 |
![]() 相機掃過一片被雪覆蓋的山脈...相機掃過一片被雪覆蓋的山脈,展現出一片廣闊的、白雪皚皚的山峰和山谷。山脈被厚厚的積雪覆蓋,有些地方几乎呈白色,而有些地方則略帶深色,幾乎呈灰色調。山峰參差不齊、形狀各異,有些陡峭地直插雲霄,而有些則較為圓潤。山谷又深又窄,陡峭的山坡上也覆蓋著積雪。前景中的樹木大多光禿禿的,只有少數樹枝上還留著幾片葉子。天空陰雲密佈,厚厚的雲層遮住了太陽。整體給人一種寧靜祥和的感覺,被雪覆蓋的山脈見證了大自然的力量與美麗。 |
![]() 一位皮膚白皙的女性,穿著藍色夾克和帶面紗的黑色帽子...一位皮膚白皙的女性,穿著藍色夾克和帶面紗的黑色帽子,邊說話邊向下看向右側,然後又抬頭。她留著棕色頭髮,梳成髮髻,眉毛呈淺棕色,夾克裡面穿著白色領口襯衫;她說話時相機一直對著她的臉;背景有些模糊,但能看到樹木和穿著古裝的人;該場景看起來像是真實生活中的畫面。 |
![]() 一位男子在光線昏暗的房間裡對著一部老式電話交談...一位男子在光線昏暗的房間裡對著一部老式電話交談,掛斷電話後,面帶悲傷地低頭。他用右手將黑色旋轉電話貼在右耳旁,左手拿著一個裝有琥珀色液體的岩石杯。他穿著棕色西裝外套,裡面是白色襯衫,左手無名指上戴著一枚金戒指。他的短髮梳理得整整齊齊,皮膚白皙,眼睛周圍有明顯的皺紋。相機保持靜止,聚焦在他的臉和上半身。房間很暗,只有左側屏幕外的一個暖光源照亮,在他身後的牆上投下陰影。該場景看起來像是來自電影。 |
![]() 一名獄警打開牢房的門...一名獄警打開牢房的門,露出一名年輕男子和一名女子坐在桌旁的場景。獄警穿著左胸有徽章的深藍色制服,用右手拿著鑰匙打開牢房門並拉開;他留著棕色短髮,皮膚白皙,表情平淡。年輕男子穿著黑白條紋襯衫,坐在鋪著白色桌布的桌旁,面向女子;他留著棕色短髮,皮膚白皙,表情平淡。女子穿著深藍色襯衫,坐在年輕男子對面,臉轉向他;她留著金色短髮,皮膚白皙。相機保持靜止,從適中的距離捕捉場景,位置略在獄警右側。房間光線昏暗,只有一盞燈具照亮桌子和兩個人物。牆壁由巨大的灰色混凝土塊砌成,背景中可以看到一扇金屬門。該場景看起來像是真實生活中的畫面。 |
![]() 一位臉上有血、穿著白色背心的女性...一位臉上有血、穿著白色背心的女性邊說話邊向下看向右側,然後又抬頭。她留著深色頭髮,向後梳起,皮膚白皙,臉和胸部都沾滿了血。相機視角為特寫,聚焦在女性的臉和上半身。光線昏暗,呈藍色調,營造出一種憂鬱而緊張的氛圍。該場景看起來像是來自電影或電視劇。 |
![]() 一位頭髮花白、留著鬍鬚、穿著灰色襯衫的男子...一位頭髮花白、留著鬍鬚、穿著灰色襯衫的男子向下看向右側,然後轉頭向左。相機視角為特寫,聚焦在男子的臉上。光線昏暗,略帶綠色調。該場景看起來像是真實生活中的畫面。 |
![]() 一條清澈的藍綠色河流流經一個岩石峽谷...一條清澈的藍綠色河流流經一個岩石峽谷,從一個小瀑布上傾瀉而下,在底部形成一個水潭。河流是場景的主要焦點,清澈的河水倒映著周圍的樹木和岩石。峽谷壁陡峭多石,上面生長著一些植被。樹木大多是松樹,綠色的針葉與棕色和灰色的岩石形成鮮明對比。整個場景給人一種寧靜祥和的感覺。 |
![]() 一位穿著西裝的男子走進房間,與兩位坐在沙發上的女性交談...一位穿著西裝的男子走進房間,與兩位坐在沙發上的女性交談。男子穿著配有金色領帶的深色西裝,從左側進入房間,朝畫面中心走去。他留著灰色短髮,皮膚白皙,表情嚴肅。他走近沙發時,右手放在椅子背上。背景中,兩位女性坐在淺色沙發上。左邊的女性穿著淺藍色毛衣,留著金色短髮。右邊的女性穿著白色毛衣,留著金色短髮。相機保持靜止,在男子進入房間時聚焦在他身上。房間光線明亮,溫暖的色調在牆壁和傢俱上反射。該場景看起來像是來自電影或電視劇。 |
![]() 海浪拍打著海岸線參差不齊的岩石...海浪拍打著海岸線參差不齊的岩石,激起高高的浪花。岩石呈深灰色,邊緣鋒利,有很深的裂縫。海水呈清澈的藍綠色,海浪拍打岩石的地方泛起白色泡沫。天空呈淺灰色,地平線上點綴著幾朵白雲。 |
![]() 相機掃過一片高樓林立的城市景觀...相機掃過一片高樓林立的城市景觀,中間有一座圓形建築。相機從左向右移動,展示著高樓的頂部和中間的圓形建築。高樓呈現出各種灰色和白色調,圓形建築的屋頂是綠色的。相機視角較高,俯瞰著城市。光線明亮,太陽從左上方照射下來,在高樓上投下陰影。該場景是計算機生成的圖像。 |
![]() 一位男子走向窗戶,向外張望,然後轉身...一位男子走向窗戶,向外張望,然後轉身。他留著黑色短髮,皮膚黝黑,穿著棕色外套,裡面圍著紅灰色圍巾。他從左向右走向窗戶,目光固定在窗外的某個東西上。相機從適中的距離從後面跟隨他。房間光線明亮,白色的牆壁和一扇被白色窗簾遮住的大窗戶。當他走近窗戶時,他微微向左轉頭,然後又向右轉頭。然後他整個身體向右轉,面向窗戶。他站在窗戶前時,相機保持靜止。該場景看起來像是真實生活中的畫面。 |
![]() 兩位穿著深藍色制服和配套帽子的警察...兩位穿著深藍色制服和配套帽子的警察通過畫面左側的一扇門進入一個光線昏暗的房間。第一位警察留著棕色短髮和小鬍子,先走進來,後面跟著他的搭檔,搭檔剃著光頭,留著山羊鬍。兩位警察表情嚴肅,步伐穩健地向房間深處走去。相機保持靜止,從略低的角度捕捉他們進入的畫面。房間的牆壁是裸露的磚塊,天花板是波紋金屬材質,背景中可以看到一扇有柵欄的窗戶。光線較暗,在警察臉上投下陰影,凸顯出嚴峻的氛圍。該場景看起來像是來自電影或電視劇。 |
![]() 一位留著棕色短髮、穿著栗色無袖上衣的女性...一位留著棕色短髮、穿著栗色無袖上衣和銀色項鍊的女性邊說話邊穿過房間,然後一位留著粉色頭髮、穿著白色襯衫的女性出現在門口並大喊。第一位女性從左向右走,表情嚴肅;她皮膚白皙,眉毛微微皺起。第二位女性站在門口,張著嘴大喊;她皮膚白皙,眼睛睜得很大。房間光線昏暗,背景中可以看到一個書架。相機跟隨第一位女性走動,然後切換到第二位女性臉部的特寫。該場景看起來像是真實生活中的畫面。 |
🔧 技術細節
原文檔未提供相關技術細節。
📄 許可證
本模型在不同版本下有對應的許可證,具體如下:
- 2B 版本 0.9:許可證
- 2B 版本 0.9.1:許可證
- 2B 版本 0.9.5:許可證
- 2B 版本 0.9.6-dev:許可證
- 2B 版本 0.9.6 蒸餾版:許可證
- 13B 版本 0.9.7-dev:許可證
- 13B 版本 0.9.7-dev-fp8:許可證
- 13B 版本 0.9.7 蒸餾版:許可證
- 13B 版本 0.9.7 蒸餾版-lora128:許可證
- 時間上採樣器版本 0.9.7:許可證
- 空間上採樣器版本 0.9.7:許可證
⚠️ 侷限性
- 本模型並非用於也無法提供事實信息。
- 作為統計模型,此檢查點可能會放大現有的社會偏見。
- 模型可能無法生成與提示詞完全匹配的視頻。
- 模型對提示詞的遵循程度很大程度上受提示風格的影響。
Xclip Base Patch32
MIT
X-CLIP是CLIP的擴展版本,用於通用視頻語言理解,通過對比學習在(視頻,文本)對上訓練,適用於視頻分類和視頻-文本檢索等任務。
文本生成視頻
Transformers 英語

X
microsoft
309.80k
84
LTX Video
其他
首個基於DiT的視頻生成模型,能夠即時生成高質量視頻,支持文本轉視頻和圖像+文本轉視頻兩種場景。
文本生成視頻 英語
L
Lightricks
165.42k
1,174
Wan2.1 14B VACE GGUF
Apache-2.0
Wan2.1-VACE-14B模型的GGUF格式版本,主要用於文本到視頻的生成任務。
文本生成視頻
W
QuantStack
146.36k
139
Animatediff Lightning
Openrail
極速文本生成視頻模型,生成速度比原版AnimateDiff快十倍以上
文本生成視頻
A
ByteDance
144.00k
925
V Express
V-Express是一個基於音頻和麵部關鍵點條件生成的視頻生成模型,能夠將音頻輸入轉換為動態視頻輸出。
文本生成視頻 英語
V
tk93
118.36k
85
Cogvideox 5b
其他
CogVideoX是源自清影的視頻生成模型的開源版本,提供高質量的視頻生成能力。
文本生成視頻 英語
C
THUDM
92.32k
611
Llava NeXT Video 7B Hf
LLaVA-NeXT-Video是一個開源多模態聊天機器人,通過視頻和圖像數據混合訓練獲得優秀的視頻理解能力,在VideoMME基準上達到開源模型SOTA水平。
文本生成視頻
Transformers 英語

L
llava-hf
65.95k
88
Wan2.1 T2V 14B Diffusers
Apache-2.0
萬2.1是一套全面開放的視頻基礎模型,旨在突破視頻生成的邊界,支持中英文文本生成視頻、圖像生成視頻等多種任務。
文本生成視頻 支持多種語言
W
Wan-AI
48.65k
24
Wan2.1 T2V 1.3B Diffusers
Apache-2.0
萬2.1是一套全面開放的視頻基礎模型,具備頂尖性能、支持消費級GPU、多任務支持、視覺文本生成和高效視頻VAE等特點。
文本生成視頻 支持多種語言
W
Wan-AI
45.29k
38
Wan2.1 T2V 14B
Apache-2.0
萬2.1是一套綜合性開源視頻基礎模型,具備文本生成視頻、圖像生成視頻、視頻編輯、文本生成圖像及視頻生成音頻等多任務能力,支持中英雙語文本生成。
文本生成視頻 支持多種語言
W
Wan-AI
44.88k
1,238
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98