ホーム

LTX Video 0.9.7 Dev

Lightricksによって開発

DiTアーキテクチャを基にした初のリアルタイム高品質動画生成モデル。1216×704解像度の動画を30fpsで生成可能

動画処理英語オープンソースライセンス:その他 #リアルタイム動画生成 #高解像度動画 #DiTアーキテクチャ

ダウンロード数 477

リリース時間 : 5/13/2025

モデル概要

DiTアーキテクチャを採用した動画生成モデル。テキストから動画、画像+テキストから動画の2モードをサポートし、高解像度で多様な内容の動画を生成

モデル特徴

リアルタイムHD動画生成

1216×704解像度の高品質動画を30fpsで生成可能

マルチモーダル入力対応

テキスト単体入力と画像+テキスト組み合わせ入力の両方をサポート

多様なニーズに対応する複数バージョン

最高品質版から軽量版まで複数バージョンを提供し、速度と品質のバランスを調整

多様なコンテンツ生成

多様な動画データセットで学習済みで、現実的で多様な内容の動画を生成可能

モデル能力

テキスト→動画生成

画像→動画生成

高解像度動画合成

リアルタイム動画レンダリング

使用事例

映像制作

映画シーンプレビュー

映画シーンのコンセプト動画を迅速に生成

複数の映画スタイルシーンを展示するサンプル

キャラクター表情アニメーション

テキスト記述に基づきキャラクター表情変化を生成

様々な人物表情クローズアップを含むサンプル

広告クリエイティブ

プロダクトデモ動画

製品画像から動的な展示を生成

ゲーム開発

環境アニメーション生成

ゲームシーンの動的背景を生成

山脈、河川などの自然環境を含むサンプル

tags:

ltx-video
image-to-video pinned: true language:
en license: other pipeline_tag: text-to-video library_name: diffusers

LTX-Video 0.9.7 モデルカード

このモデルカードは、こちらでコードベースが公開されているLTX-Videoモデルに関連するモデルに焦点を当てています。

LTX-Videoは、リアルタイムで高品質な動画を生成可能な初のDiTベースの動画生成モデルです。1216×704解像度の30FPS動画を、視聴可能な速度よりも速く生成します。多様な動画からなる大規模データセットで学習されており、現実的でバラエティに富んだコンテンツの高解像度動画を生成します。テキストから動画、および画像+テキストから動画の両ユースケースに対応したモデルを提供しています。


長い茶色の髪と明るい肌の女性が、長い金髪の別の女性に微笑みかけています... 長い茶色の髪と明るい肌の女性が、長い金髪の別の女性に微笑みかけています。茶色の髪の女性は黒いジャケットを着ており、右頬に小さなほくろがかすかに見えます。カメラアングルはクローズアップで、茶色の髪の女性の顔に焦点が当てられています。照明は暖かく自然で、おそらく夕日の光がシーンに柔らかな輝きを投げかけています。このシーンは実写映像のように見えます。	夜の街路に停められた白いジープから女性が離れ、階段を上ってドアをノックします... 夜の街路に停められた白いジープから女性が離れ、階段を上ってドアをノックします。女性はダークジャケットとジーンズを着ており、ジープから街路の左側に背を向けて歩き去ります。彼女は一定のペースで歩き、腕を軽く振っています。通りは薄暗く、街灯が濡れた舗道に光のプールを作っています。ダークジャケットとジーンズの男性がジープの横を反対方向に歩いていきます。カメラは女性を後ろから追い、緑色のドアがある建物に向かって階段を上る様子を映しています。階段の頂上に着くと左に曲がり、建物に向かって歩き続けます。右手でドアをノックします。カメラは静止したまま、ドアに焦点を当て続けます。このシーンは実写映像で撮影されています。	アップスタイルのブロンドヘアで、スパンコールの黒いドレスを着た女性... アップスタイルのブロンドヘアで、スパンコールの黒いドレスと真珠のイヤリングを着けた女性が、悲しげな表情で下を向いています。カメラは静止したまま、女性の顔に焦点を当てています。照明は薄暗く、彼女の顔に柔らかな影を落としています。このシーンは映画やテレビ番組からのもののように見えます。	カメラが雪に覆われた山脈をパンします... カメラが雪に覆われた山脈をパンし、雪に覆われた峰々と谷間の広大な景色を映し出します。山々は厚い雪に覆われており、一部はほぼ白く、他の部分はやや暗い灰色がかっています。峰はギザギザして不規則で、鋭く空に向かってそびえ立つものもあれば、より丸みを帯びたものもあります。谷は深く狭く、急勾配の斜面も雪に覆われています。前景の木々はほとんど葉がなく、枝にわずかな葉が残っているだけです。空は曇っており、厚い雲が太陽を遮っています。全体的な印象は平和で静かなもので、雪に覆われた山々が自然の力と美しさを証明しています。
明るい肌で青いジャケットとベール付きの黒い帽子をかぶった女性... 明るい肌で青いジャケットとベール付きの黒い帽子をかぶった女性が、下を向いて右を見た後、話しながら再び上を向きます。彼女は茶色の髪をアップスタイルにし、薄茶色の眉毛を持ち、ジャケットの下に白い襟付きシャツを着ています。話している間、カメラは彼女の顔に静止しています。背景はボケていますが、木々と時代衣装の人々が見えます。このシーンは実写映像で撮影されています。	薄暗い部屋で男性がヴィンテージ電話で話しています... 薄暗い部屋で男性がヴィンテージ電話で話し、受話器を置くと悲しげな表情で下を向きます。彼は黒いダイヤル式電話を右手で右耳に当て、左手には琥珀色の液体が入ったロックスグラスを持っています。白いシャツの上に茶色のスーツジャケットを着ており、左手の薬指に金の指輪をはめています。短い髪はきちんと梳かれており、明るい肌で目の周りにしわが見えます。カメラは静止したまま、彼の顔と上半身に焦点を当てています。部屋は暗く、画面左側のオフスクリーンにある暖かい光源のみが照明で、後ろの壁に影を落としています。このシーンは映画からのもののように見えます。	刑務官が独房のドアを開錠し開けます... 刑務官が独房のドアを開錠し開けると、テーブルに女性と座っている若い男性が見えます。看守は左胸にバッジが付いた濃紺の制服を着ており、右手に持った鍵で独房のドアを開錠し、開けます。彼は短い茶色の髪と明るい肌で、無表情です。若い男性は黒と白の縞模様のシャツを着て、白いテーブルクロスがかけられたテーブルに女性と向かい合って座っています。彼も短い茶色の髪と明るい肌で、無表情です。女性は濃紺のシャツを着て若い男性の向かいに座り、顔を彼に向けています。彼女は短いブロンドの髪と明るい肌です。カメラは中距離からシーンを捉え、看守の少し右側に位置して静止しています。部屋は薄暗く、テーブルと2人の人物を照らす単一の照明器具があります。壁は大きな灰色のコンクリートブロックで作られており、背景に金属製のドアが見えます。このシーンは実写映像で撮影されています。	顔に血がつき白いタンクトップを着た女性... 顔に血がつき白いタンクトップを着た女性が、下を向いて右を見た後、話しながら再び上を向きます。彼女は暗い髪を後ろにまとめ、明るい肌で、顔と胸に血がついています。カメラアングルはクローズアップで、女性の顔と上半身に焦点が当てられています。照明は薄暗く青みがかっており、重く緊張した雰囲気を作り出しています。このシーンは映画やテレビ番組からのもののように見えます。
白髪交じりの髪とひげ、灰色のシャツを着た男性... 白髪交じりの髪とひげ、灰色のシャツを着た男性が、下を向いて右を見た後、頭を左に向けます。カメラアングルはクローズアップで、男性の顔に焦点が当てられています。照明は薄暗く、緑がかった色合いです。このシーンは実写映像のように見えます。	透き通ったターコイズ色の川が岩だらけの峡谷を流れ... 透き通ったターコイズ色の川が岩だらけの峡谷を流れ、小さな滝を越えて底に水のプールを形成しています。川はシーンの主役で、澄んだ水が周囲の木々と岩を映しています。峡谷の壁は急峻で岩だらけで、一部に植物が生えています。木々は主に松の木で、緑の針葉が茶色と灰色の岩と対照的です。シーン全体の雰囲気は平和で静かなものです。	スーツ姿の男性が部屋に入り、ソファに座る2人の女性に話しかけます... スーツ姿の男性が部屋に入り、ソファに座る2人の女性に話しかけます。男性は金のネクタイをしたダークスーツを着て、左から部屋に入り、フレーム中央に向かって歩きます。彼は短い灰色の髪と明るい肌で、深刻な表情をしています。ソファに近づきながら右手を椅子の背もたれに置きます。背景の明るい色のソファには2人の女性が座っています。左側の女性は薄い青のセーターを着て短いブロンドの髪です。右側の女性は白いセーターを着て短いブロンドの髪です。カメラは静止したまま、男性が部屋に入る様子に焦点を当てています。部屋は明るく照らされ、壁と家具に暖かい色調が反射しています。このシーンは映画やテレビ番組からのもののように見えます。	波が海岸線のギザギザした岩に打ちつけ... 波が海岸線のギザギザした岩に打ちつけ、しぶきを高く空中に放ちます。岩は濃い灰色で、鋭い縁と深い割れ目があります。水は澄んだ青緑色で、波が岩にぶつかる場所には白い泡が立っています。空は薄い灰色で、地平線にいくつかの白い雲が点在しています。
カメラが高層ビル群の都市景観をパンします... カメラが高層ビル群の都市景観をパンし、中央に円形の建物が映ります。カメラは左から右に移動し、建物の上部と中央の円形建物を映します。建物は様々な灰色と白色の色合いで、円形建物は緑色の屋根を持っています。カメラアングルは高く、都市を見下ろしています。照明は明るく、左上から太陽が照らし、建物から影を落としています。このシーンはコンピュータ生成映像です。	男性が窓に向かって歩き、外を見た後、振り返ります... 男性が窓に向かって歩き、外を見た後、振り返ります。彼は短い黒髪で、濃い肌色、茶色のコートの上に赤と灰色のスカーフを着ています。左から右に窓に向かって歩き、視線は外の何かに固定されています。カメラは中距離から後ろから彼を追います。部屋は明るく照らされ、白い壁と白いカーテンで覆われた大きな窓があります。窓に近づくと、彼は頭をわずかに左に向け、次に右に戻します。その後、体全体を右に向け、窓に向き合います。カメラは静止したまま、彼が窓の前に立っている様子を映します。このシーンは実写映像で撮影されています。	濃紺の制服と帽子をかぶった2人の警察官... 濃紺の制服と帽子をかぶった2人の警察官が、フレーム左側のドアから薄暗い部屋に入ります。最初の警官は短い茶色の髪と口ひげで、先に入り、その後を剃り上げた頭とあごひげの相棒が続きます。両警官は深刻な表情で、部屋の奥に向かって一定のペースで進みます。カメラは静止したまま、彼らが入ってくる様子をやや低いアングルから捉えます。部屋はレンガの壁がむき出しで、波型金属の天井があり、背景には格子窓が見えます。照明は低調で、警官たちの顔に影を落とし、陰鬱な雰囲気を強調しています。このシーンは映画やテレビ番組からのもののように見えます。	短い茶色の髪でマルーンのノースリーブトップと銀のネックレスを着た女性... 短い茶色の髪でマルーンのノースリーブトップと銀のネックレスを着た女性が、話しながら部屋を歩き、その後ピンクの髪と白いシャツの女性がドアに現れて叫びます。最初の女性は左から右に歩き、表情は深刻です。彼女は明るい肌で、眉をわずかにひそめています。2人目の女性はドアに立ち、口を開けて叫んでいます。彼女は明るい肌で、目を見開いています。部屋は薄暗く、背景に本棚が見えます。カメラは最初の女性が歩く様子を追い、その後2人目の女性の顔のクローズアップに切り替わります。このシーンは実写映像で撮影されています。

モデル

名前	備考	inference.py設定	ComfyUIワークフロー（推奨）
ltxv-13b-0.9.7-dev	最高品質、より多くのVRAMが必要	ltxv-13b-0.9.7-dev.yaml	ltxv-13b-i2v-base.json
ltxv-13b-0.9.7-mix	ltxv-13b-devとltxv-13b-distilledを同じマルチスケールレンダリングワークフローで混合し、速度と品質のバランスを取る	N/A	ltxv-13b-i2v-mix.json
ltxv-13b-0.9.7-distilled	より高速、VRAM使用量が少ない、13bと比べて品質がわずかに低下。迅速な反復に最適	ltxv-13b-0.9.7-distilled.yaml	ltxv-13b-dist-i2v-base.json
ltxv-13b-0.9.7-distilled-lora128	ltxv-13b-devを蒸留モデルのように動作させるLoRA	N/A	N/A
ltxv-13b-0.9.7-fp8	ltxv-13bの量子化バージョン	近日公開	ltxv-13b-i2v-base-fp8.json
ltxv-13b-0.9.7-distilled-fp8	ltxv-13b-distilledの量子化バージョン	近日公開	ltxv-13b-dist-fp8-i2v-base.json
ltxv-2b-0.9.6	良好な品質、ltxv-13bよりもVRAM要件が低い	ltxv-2b-0.9.6-dev.yaml	ltxvideo-i2v.json
ltxv-2b-0.9.6-distilled	15倍高速、リアルタイム対応、必要なステップ数が少ない、STG/CFG不要	ltxv-2b-0.9.6-distilled.yaml	ltxvideo-i2v-distilled.json

モデル詳細

開発者: Lightricks
モデルタイプ: 拡散ベースのテキストから動画、画像から動画生成モデル
対応言語: 英語

使用方法

直接使用

ライセンスに基づき、以下の目的でモデルを使用できます:

2Bバージョン0.9: ライセンス
2Bバージョン0.9.1 ライセンス
2Bバージョン0.9.5 ライセンス
2Bバージョン0.9.6-dev ライセンス
2Bバージョン0.9.6-distilled ライセンス
13Bバージョン0.9.7-dev ライセンス
13Bバージョン0.9.7-dev-fp8 ライセンス
13Bバージョン0.9.7-distilled ライセンス
13Bバージョン0.9.7-distilled-fp8 ライセンス
13Bバージョン0.9.7-distilled-lora128 ライセンス
テンポラルアップスケーラーバージョン0.9.7 ライセンス
空間アップスケーラーバージョン0.9.7 ライセンス

一般的なヒント:

このモデルは32で割り切れる解像度と、8 + 1で割り切れるフレーム数（例：257）で動作します。解像度やフレーム数が32や8 + 1で割り切れない場合、入力は-1でパディングされ、その後目的の解像度とフレーム数にクロップされます。
このモデルは720 x 1280以下の解像度と257フレーム未満で最適に動作します。
プロンプトは英語で、より詳細なほど良いです。良いプロンプトの例：The turquoise waves crash against the dark, jagged rocks of the shore, sending white foam spraying into the air. The scene is dominated by the stark contrast between the bright blue water and the dark, almost black rocks. The water is a clear, turquoise color, and the waves are capped with white foam. The rocks are dark and jagged, and they are covered in patches of green moss. The shore is lined with lush green vegetation, including trees and bushes. In the background, there are rolling hills covered in dense forest. The sky is cloudy, and the light is dim.

オンラインデモ

以下のリンクからすぐにモデルを試せます:

ComfyUI

ComfyUIで当社のモデルを使用するには、専用のComfyUIリポジトリの手順に従ってください。

ローカル実行

インストール

コードベースはPython 3.10.5、CUDAバージョン12.2でテストされており、PyTorch >= 2.1.2をサポートしています。

git clone https://github.com/Lightricks/LTX-Video.git
cd LTX-Video

# 環境作成
python -m venv env
source env/bin/activate
python -m pip install -e .\[inference-script\]

推論

当社のモデルを使用するには、inference.pyの推論コードに従ってください:

テキストから動画生成:

python inference.py --prompt "プロンプト" --height 高さ --width 幅 --num_frames フレーム数 --seed シード --pipeline_config configs/ltxv-13b-0.9.7-dev.yaml

画像から動画生成:

python inference.py --prompt "プロンプト" --input_image_path 画像パス --height 高さ --width 幅 --num_frames フレーム数 --seed シード --pipeline_config configs/ltxv-13b-0.9.7-dev.yaml

Diffusers ðŸ§¨

LTX VideoはDiffusers Pythonライブラリと互換性があります。テキストから動画と画像から動画の両方の生成をサポートしています。

以下の例を試す前に、diffusersをインストールしてください。

pip install -U git+https://github.com/huggingface/diffusers

以下の例を実行できます（アップサンプリングステージはオプションですが推奨されます）:

テキストから動画:

import torch
from diffusers import LTXConditionPipeline, LTXLatentUpsamplePipeline
from diffusers.pipelines.ltx.pipeline_ltx_condition import LTXVideoCondition
from diffusers.utils import export_to_video

pipe = LTXConditionPipeline.from_pretrained("Lightricks/LTX-Video-0.9.7-dev", torch_dtype=torch.bfloat16)
pipe_upsample = LTXLatentUpsamplePipeline.from_pretrained("Lightricks/ltxv-spatial-upscaler-0.9.7", vae=pipe.vae, torch_dtype=torch.bfloat16)
pipe.to("cuda")
pipe_upsample.to("cuda")
pipe.vae.enable_tiling()

prompt = "The video depicts a winding mountain road covered in snow, with a single vehicle traveling along it. The road is flanked by steep, rocky cliffs and sparse vegetation. The landscape is characterized by rugged terrain and a river visible in the distance. The scene captures the solitude and beauty of a winter drive through a mountainous region."
negative_prompt = "worst quality, inconsistent motion, blurry, jittery, distorted"
expected_height, expected_width = 704, 512
downscale_factor = 2 / 3
num_frames = 121

# パート1. 小さい解像度で動画生成
downscaled_height, downscaled_width = int(expected_height * downscale_factor), int(expected_width * downscale_factor)
latents = pipe(
    conditions=None,
    prompt=prompt,
    negative_prompt=negative_prompt,
    width=downscaled_width,
    height=downscaled_height,
    num_frames=num_frames,
    num_inference_steps=30,
    generator=torch.Generator().manual_seed(0),
    output_type="latent",
).frames

# パート2. 生成した動画を潜在アップサンプラーで拡大（推論ステップ数少なめ）
# 利用可能な潜在アップサンプラーは高さ/幅を2倍に拡大
upscaled_height, upscaled_width = downscaled_height * 2, downscaled_width * 2
upscaled_latents = pipe_upsample(
    latents=latents,
    output_type="latent"
).frames

# パート3. 拡大した動画を数ステップでデノイズし質感を改善（オプションだが推奨）
video = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    width=upscaled_width,
    height=upscaled_height,
    num_frames=num_frames,
    denoise_strength=0.4,  # 実質的に10ステップ中4ステップ
    num_inference_steps=10,
    latents=upscaled_latents,
    decode_timestep=0.05,
    image_cond_noise_scale=0.025,
    generator=torch.Generator().manual_seed(0),
    output_type="pil",
).frames[0]

# パート4. 動画を期待する解像度にダウンスケール
video = [frame.resize((expected_width, expected_height)) for frame in video]

export_to_video(video, "output.mp4", fps=24)

画像から動画:

import torch
from diffusers import LTXConditionPipeline, LTXLatentUpsamplePipeline
from diffusers.pipelines.ltx.pipeline_ltx_condition import LTXVideoCondition
from diffusers.utils import export_to_video, load_image

pipe = LTXConditionPipeline.from_pretrained("Lightricks/LTX-Video-0.9.7-dev", torch_dtype=torch.bfloat16)
pipe_upsample = LTXLatentUpsamplePipeline.from_pretrained("Lightricks/ltxv-spatial-upscaler-0.9.7", vae=pipe.vae, torch_dtype=torch.bfloat16)
pipe.to("cuda")
pipe_upsample.to("cuda")
pipe.vae.enable_tiling()

image = load_image("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/penguin.png")
video = [image]
condition1 = LTXVideoCondition(video=video, frame_index=0)

prompt = "The video depicts a winding mountain road covered in snow, with a single vehicle traveling along it. The road is flanked by steep, rocky cliffs and sparse vegetation. The landscape is characterized by rugged terrain and a river visible in the distance. The scene captures the solitude and beauty of a winter drive through a mountainous region."
negative_prompt = "worst quality, inconsistent motion, blurry, jittery, distorted"
expected_height, expected_width = 832, 480
downscale_factor = 2 / 3
num_frames = 96

# パート1. 小さい解像度で動画生成
downscaled_height, downscaled_width = int(expected_height * downscale_factor), int(expected_width * downscale_factor)
downscaled_height, downscaled_width = round_to_nearest_resolution_acceptable_by_vae(downscaled_height, downscaled_width)
latents = pipe(
    conditions=[condition1],
    prompt=prompt,
    negative_prompt=negative_prompt,
    width=downscaled_width,
    height=downscaled_height,
    num_frames=num_frames,
    num_inference_steps=30,
    generator=torch.Generator().manual_seed(0),
    output_type="latent",
).frames

# パート2. 生成した動画を潜在アップサンプラーで拡大
upscaled_height, upscaled_width = downscaled_height * 2, downscaled_width * 2
upscaled_latents = pipe_upsample(
    latents=latents,
    output_type="latent"
).frames

# パート3. 拡大した動画を数ステップでデノイズ
video = pipe(
    conditions=[condition1],
    prompt=prompt,
    negative_prompt=negative_prompt,
    width=upscaled_width,
    height=upscaled_height,
    num_frames=num_frames,
    denoise_strength=0.4,
    num_inference_steps=10,
    latents=upscaled_latents,
    decode_timestep=0.05,
    image_cond_noise_scale=0.025,
    generator=torch.Generator().manual_seed(0),
    output_type="pil",
).frames[0]

# パート4. 動画を期待する解像度にダウンスケール
video = [frame.resize((expected_width, expected_height)) for frame in video]

export_to_video(video, "output.mp4", fps=24)

動画から動画:

import torch
from diffusers import LTXConditionPipeline, LTXLatentUpsample

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご