モデル概要
モデル特徴
モデル能力
使用事例
tags:
- ltx-video
- video-upscaling
- diffusers
- video-to-video pinned: false language:
- en license: other pipeline_tag: text-to-video library_name: diffusers
LTX Video 空間アップスケーラー 0.9.7 モデルカード
このモデルカードでは、LTX Video生成モデルと連携して動作するコンポーネントモデルであるLTX Video Spatial Upscaler 0.9.7に焦点を当てます。 メインのLTX-Videoコードベースはこちらで利用可能です。
LTX-Videoは、リアルタイムで高品質な動画を生成できる初のDiTベースの動画生成モデルです。1216×704解像度の30FPS動画を、視聴可能な速度よりも速く生成します。多様な動画の大規模データセットでトレーニングされており、現実的でバラエティに富んだコンテンツの高解像度動画を生成します。 テキストから動画、および画像+テキストから動画の両方のユースケースに対応したモデルを提供しています。
LTX Video Spatial Upscalerは、動画の空間解像度を向上させる拡散ベースのモデルです。LTX Videoモデルによって生成された動画の潜在表現をアップスケールするように特別にトレーニングされています。

![]() 長い茶色の髪と明るい肌の女性が、長いブロンドの髪の別の女性に微笑みかけています...長い茶色の髪と明るい肌の女性が、長いブロンドの髪の別の女性に微笑みかけています。茶色の髪の女性は黒いジャケットを着ており、右頬に小さくほとんど目立たないほくろがあります。カメラアングルはクローズアップで、茶色の髪の女性の顔に焦点を当てています。照明は暖かく自然で、おそらく夕日の設定で、シーンに柔らかな輝きを投げかけています。このシーンは実写映像のように見えます。 |
![]() 夜の市街地に停車した白いジープから女性が離れ、階段を上りドアをノックします...夜の市街地に停車した白いジープから女性が離れ、階段を上りドアをノックします。女性はダークジャケットとジーンズを着て、カメラに背を向けてジープから左側の通りを離れます。彼女は一定のペースで歩き、腕を少し振ります。通りは薄暗く、街灯が濡れた舗道に光のプールを投げかけています。ダークジャケットとジーンズの男性がジープの横を反対方向に歩き過ぎます。カメラは女性を後ろから追い、緑色のドアがある建物に向かって階段を上ります。彼女は階段の頂上に達し、左に曲がって建物に向かって歩き続けます。ドアに到達し、右手でノックします。カメラは静止したまま、ドアに焦点を当てています。このシーンは実写映像で撮影されています。 |
![]() アップスタイルのブロンドの髪、スパンコールの黒いドレスを着た女性...アップスタイルのブロンドの髪、スパンコールの黒いドレスと真珠のイヤリングを着けた女性が、悲しげな表情で下を向いています。カメラは静止したまま、女性の顔に焦点を当てています。照明は薄暗く、彼女の顔に柔らかな影を落としています。このシーンは映画やテレビ番組からのもののように見えます。 |
![]() カメラが雪に覆われた山脈をパンします...カメラが雪に覆われた山脈をパンし、雪に覆われた峰と谷の広大な広がりを映し出します。山々は厚い雪に覆われ、一部の領域はほぼ白く、他の領域はやや暗い灰色がかっています。峰はギザギザで不規則で、一部は鋭く空にそびえ、他のものはより丸みを帯びています。谷は深く狭く、急勾配の斜面も雪に覆われています。前景の木々はほとんど葉がなく、枝にわずかな葉が残っています。空は曇っており、厚い雲が太陽を遮っています。全体の印象は平和と静けさで、雪に覆われた山々は自然の力と美しさの証です。 |
![]() 明るい肌、青いジャケットとベール付きの黒い帽子を着た女性...明るい肌、青いジャケットとベール付きの黒い帽子を着た女性が、下を向き右を見てから話します。彼女は茶色の髪をアップスタイルにし、薄茶色の眉毛を持ち、ジャケットの下に白い襟付きシャツを着ています。カメラは彼女が話す間、顔に静止しています。背景はボケていますが、木々と時代衣装の人々が見えます。このシーンは実写映像で撮影されています。 |
![]() 薄暗い部屋で男性がヴィンテージ電話で話し、切って悲しげな表情で下を向きます...薄暗い部屋で男性がヴィンテージ電話で話し、切って悲しげな表情で下を向きます。彼は黒いダイヤル式電話を右手で右耳に当て、左手には琥珀色の液体が入ったロックスグラスを持っています。茶色のスーツジャケットを白いシャツの上に着て、左手の薬指に金の指輪をはめています。短い髪はきちんと整えられ、明るい肌で目の周りにしわが目立ちます。カメラは静止したまま、彼の顔と上半身に焦点を当てています。部屋は暗く、画面左側の暖かい光源のみが照明で、後ろの壁に影を落としています。このシーンは映画からのもののように見えます。 |
![]() 刑務所の警備員が独房のドアを開錠し開け、テーブルに座る若い男性と女性を現します...刑務所の警備員が独房のドアを開錠し開け、テーブルに座る若い男性と女性を現します。警備員は左胸にバッジが付いた濃紺の制服を着て、右手に持った鍵で独房のドアを開錠し引っ張って開けます。彼は短い茶色の髪、明るい肌、無表情です。黒と白の縞模様のシャツを着た若い男性は、白いテーブルクロスがかけられたテーブルに女性と向かい合って座っています。彼は短い茶色の髪、明るい肌、無表情です。濃紺のシャツを着た女性は若い男性の向かいに座り、顔を彼に向けています。彼女は短いブロンドの髪と明るい肌です。カメラは中距離からシーンを捉え、警備員の少し右側に位置しています。部屋は薄暗く、テーブルと2人の人物を照らす単一の照明器具があります。壁は大きな灰色のコンクリートブロックでできており、背景に金属製のドアが見えます。このシーンは実写映像で撮影されています。 |
![]() 顔に血がつき白いタンクトップを着た女性...顔に血がつき白いタンクトップを着た女性が、下を向き右を見てから話します。彼女は暗い髪を後ろにまとめ、明るい肌で、顔と胸は血に覆われています。カメラアングルはクローズアップで、女性の顔と上半身に焦点を当てています。照明は薄暗く青みがかっており、重く緊張した雰囲気を作り出しています。このシーンは映画やテレビ番組からのもののように見えます。 |
![]() 白髪交じりの髪、ひげ、灰色のシャツを着た男性...白髪交じりの髪、ひげ、灰色のシャツを着た男性が、下を向き右を見てから左に頭を向けます。カメラアングルはクローズアップで、男性の顔に焦点を当てています。照明は薄暗く、緑がかっています。このシーンは実写映像のように見えます。 |
![]() 透明なターコイズ色の川が岩だらけの峡谷を流れ...透明なターコイズ色の川が岩だらけの峡谷を流れ、小さな滝を越えて底に水のプールを形成します。川はシーンの主役で、澄んだ水が周囲の木々と岩を映し出しています。峡谷の壁は急峻で岩だらけで、一部に植生が生えています。木々は主に松の木で、緑の針葉が茶色と灰色の岩と対照的です。シーンの全体的なトーンは平和と静けさです。 |
![]() スーツを着た男性が部屋に入り、ソファに座る2人の女性に話しかけます...スーツを着た男性が部屋に入り、ソファに座る2人の女性に話しかけます。男性は金のネクタイをしたダークスーツを着て、左から部屋に入りフレームの中央に向かって歩きます。彼は短い灰色の髪、明るい肌、真剣な表情です。ソファに近づきながら右手を椅子の背もたれに置きます。背景の薄い色のソファに2人の女性が座っています。左側の女性は薄い青のセーターを着て短いブロンドの髪です。右側の女性は白いセーターを着て短いブロンドの髪です。カメラは男性が部屋に入る間、静止しています。部屋は明るく、壁と家具に暖かい色調が反射しています。このシーンは映画やテレビ番組からのもののように見えます。 |
![]() 波が海岸線のギザギザの岩に打ちつけ...波が海岸線のギザギザの岩に打ちつけ、しぶきを高く空中に飛ばします。岩は濃い灰色で、鋭い縁と深い割れ目があります。水は透明な青緑色で、波が岩にぶつかる場所に白い泡があります。空は薄い灰色で、地平線にいくつかの白い雲が点在しています。 |
![]() カメラが高層ビルの街並みをパンし...カメラが高層ビルの街並みをパンし、中央に円形の建物があります。カメラは左から右に移動し、ビルの上部と中央の円形の建物を映し出します。ビルは様々な灰色と白の色合いで、円形の建物は緑色の屋根を持っています。カメラアングルは高く、街を見下ろしています。照明は明るく、太陽が左上から照らし、ビルから影を落としています。このシーンはコンピュータ生成映像です。 |
![]() 男性が窓に向かって歩き、外を見てから振り返ります...男性が窓に向かって歩き、外を見てから振り返ります。彼は短い暗い髪、暗い肌で、茶色のコートの上に赤と灰色のスカーフを着ています。彼は左から右に窓に向かって歩き、視線は外の何かに固定されています。カメラは中距離から後ろから彼を追います。部屋は明るく、白い壁と白いカーテンで覆われた大きな窓があります。窓に近づくと、彼は頭を少し左に、次に右に向けます。その後、体全体を右に向け、窓に向き合います。カメラは窓の前で彼が立つ間、静止しています。このシーンは実写映像で撮影されています。 |
![]() 濃紺の制服と帽子を着た2人の警察官...濃紺の制服と帽子を着た2人の警察官が、フレームの左側のドアから薄暗い部屋に入ります。最初の警官は短い茶色の髪と口ひげで、先に入り、その後を剃り込みとあごひげの相棒が続きます。両警官は真剣な表情で、部屋の奥に向かって一定のペースで移動します。カメラはやや低い角度から静止し、彼らが入るのを捉えます。部屋はレンガの壁がむき出しで、波状の金属天井があり、背景に格子窓が見えます。照明は薄暗く、警官の顔に影を落とし、重苦しい雰囲気を強調しています。このシーンは映画やテレビ番組からのもののように見えます。 |
![]() 短い茶色の髪、マルーンのノースリーブトップを着た女性...短い茶色の髪、マルーンのノースリーブトップと銀のネックレスを着た女性が、話しながら部屋を歩き、その後ピンクの髪と白いシャツの女性がドアに現れて叫びます。最初の女性は左から右に歩き、表情は真剣です。彼女は明るい肌で、眉を少ししかめています。2人目の女性はドアに立ち、口を開けて叫んでいます。彼女は明るい肌で、目を見開いています。部屋は薄暗く、背景に本棚が見えます。カメラは最初の女性が歩くのを追い、その後2人目の女性の顔のクローズアップに切り替わります。このシーンは実写映像で撮影されています。 |
このアップスケーラーモデルは互換性があり、以下の両方によって生成された動画の出力品質を向上させるために使用できます:
Lightricks/LTX-Video-0.9.7-dev
Lightricks/LTX-Video-0.9.7-distilled
モデル詳細
- 開発者: Lightricks
- モデルタイプ: 潜在拡散動画空間アップスケーラー
- 入力: LTX Videoモデルからの潜在動画フレーム
- 出力: 高解像度の潜在動画フレーム
- 互換性:
Lightricks/LTX-Video-0.9.7-dev
およびLightricks/LTX-Video-0.9.7-distilled
と使用可能
使用方法
直接使用
ライセンスに基づき、以下の目的でモデルを使用できます:
- 2Bバージョン0.9: ライセンス
- 2Bバージョン0.9.1 ライセンス
- 2Bバージョン0.9.5 ライセンス
- 2Bバージョン0.9.6-dev ライセンス
- 2Bバージョン0.9.6-distilled ライセンス
- 13Bバージョン0.9.7-dev ライセンス
- 13Bバージョン0.9.7-dev-fp8 ライセンス
- 13Bバージョン0.9.7-distilled ライセンス
- 13Bバージョン0.9.7-distilled-fp8 ライセンス
- 13Bバージョン0.9.7-distilled-lora128 ライセンス
- 時間的アップスケーラーバージョン0.9.7 ライセンス
- 空間的アップスケーラーバージョン0.9.7 ライセンス
一般的なヒント:
- このモデルは32で割り切れる解像度と8 + 1で割り切れるフレーム数(例:257)で動作します。解像度やフレーム数が32や8 + 1で割り切れない場合、入力は-1でパディングされ、その後目的の解像度とフレーム数にクロップされます。
- このモデルは720 x 1280以下の解像度と257フレーム未満で最もよく動作します。
- プロンプトは英語で記述する必要があります。より詳細なほど良いです。良いプロンプトの例は「ターコイズ色の波が暗くギザギザした海岸の岩に打ちつけ、白い泡が空中に飛び散ります。シーンは明るい青い水と暗くほぼ黒い岩との鮮明なコントラストが支配的です。水は透明なターコイズ色で、波は白い泡で覆われています。岩は暗くギザギザで、緑の苔が点在しています。海岸線には木々や低木を含む緑豊かな植生が並んでいます。背景には密林に覆われたなだらかな丘があります。空は曇っており、光は薄暗いです。」
オンラインデモ
以下のリンクからすぐにモデルを利用できます:
ComfyUI
ComfyUIで当社のモデルを使用するには、専用のComfyUIリポジトリの手順に従ってください。
ローカル実行
インストール
コードベースはPython 3.10.5、CUDAバージョン12.2でテストされ、PyTorch >= 2.1.2をサポートしています。
git clone https://github.com/Lightricks/LTX-Video.git
cd LTX-Video
# 環境作成
python -m venv env
source env/bin/activate
python -m pip install -e .\[inference-script\]
推論
当社のモデルを使用するには、inference.pyの推論コードに従ってください:
Diffusers 🧨
LTX VideoはDiffusers Pythonライブラリと互換性があります。テキストから動画および画像から動画の生成の両方をサポートしています。
以下の例を試す前にdiffusers
をインストールしてください。
pip install -U git+https://github.com/huggingface/diffusers
LTX Video Spatial Upscalerは、diffusers
ライブラリのLTXLatentUpsamplePipeline
を介して使用されます。多段階生成プロセスの一部として使用されることを意図しています。
以下は、空間アップサンプラーをベースのLTX Videoモデル('dev'または'distilled'バージョン)と共に使用する方法を示す例です。
import torch
from diffusers import LTXConditionPipeline, LTXLatentUpsamplePipeline
from diffusers.pipelines.ltx.pipeline_ltx_condition import LTXVideoCondition
from diffusers.utils import export_to_video, load_image
# ベースのLTX Videoモデルを選択:
# base_model_id = "Lightricks/LTX-Video-0.9.7-dev"
base_model_id = "Lightricks/LTX-Video-0.9.7-distilled" # この例ではdistilledを使用
# 0. ベースモデルとアップサンプラーをロード
pipe = LTXConditionPipeline.from_pretrained(base_model_id, torch_dtype=torch.bfloat16)
pipe_upsample = LTXLatentUpsamplePipeline.from_pretrained(
"Lightricks/ltxv-spatial-upscaler-0.9.7",
vae=pipe.vae,
torch_dtype=torch.bfloat16
)
pipe.to("cuda")
pipe_upsample.to("cuda")
def round_to_nearest_resolution_acceptable_by_vae(height, width):
height = height - (height % pipe.vae_temporal_compression_ratio)
width = width - (width % pipe.vae_temporal_compression_ratio)
return height, width
video = load_video(
"https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/cosmos/cosmos-video2world-input-vid.mp4"
)[:21] # 最初の21フレームのみを条件として使用
condition1 = LTXVideoCondition(video=video, frame_index=0)
prompt = "この動画は雪に覆われた曲がりくねった山道を描いており、1台の車が走行しています。道の両側には急峻な岩壁とまばらな植生があります。地形は起伏に富み、遠くに川が見えます。このシーンは山岳地帯を冬にドライブする孤独と美しさを捉えています。"
negative_prompt = "最悪の品質、一貫性のない動き、ぼやけた、ぎくしゃくした、歪んだ"
expected_height, expected_width = 768, 1152
downscale_factor = 2 / 3
num_frames = 161
# パート1. 小さい解像度で動画を生成
downscaled_height, downscaled_width = int(expected_height * downscale_factor), int(expected_width * downscale_factor)
downscaled_height, downscaled_width = round_to_nearest_resolution_acceptable_by_vae(downscaled_height, downscaled_width)
latents = pipe(
conditions=[condition1],
prompt=prompt,
negative_prompt=negative_prompt,
width=downscaled_width,
height=downscaled_height,
num_frames=num_frames,
num_inference_steps=30,
generator=torch.Generator().manual_seed(0),
output_type="latent",
).frames
# パート2. より少ない推論ステップで潜在アップサンプラーを使用して生成動画をアップスケール
# 利用可能な潜在アップサンプラーは高さ/幅を2倍にアップスケールします
upscaled_height, upscaled_width = downscaled_height * 2, downscaled_width * 2
upscaled_latents = pipe_upsample(
latents=latents,
output_type="latent"
).frames
# パート3. アップスケールされた動画を数ステップでノイズ除去して質感を改善(オプションだが推奨)
video = pipe(
conditions=[condition1],
prompt=prompt,
negative_prompt=negative_prompt,
width=upscaled_width,
height=upscaled_height,
num_frames=num_frames,
denoise_strength=0.4, # 実質的に、10ステップ中4ステップの推論
num_inference_steps=10,
latents=upscaled_latents,
decode_timestep=0.05,
image_cond_noise_scale=0.025,
generator=torch.Generator().manual_seed(0),
output_type="pil",
).frames[0]
# パート4. 動画を期待する解像度にダウンスケール
video = [frame.resize((expected_width, expected_height)) for frame in video]
export_to_video(video, "output.mp4", fps=24)
🧨 diffusersを使用した詳細と推論例については、diffusersドキュメントを確認してください。
Diffusersは、from_single_file()
メソッドを使用して元のLTXチェックポイントから直接ロードすることもサポートしています。詳細についてはこのセクションを参照してください。
詳細については、公式ドキュメントを確認してください。
制限事項
- このモデルは事実情報を提供することを意図または可能にしていません。
- 統計モデルとして、このチェックポイントは既存の社会的バイアスを増幅する可能性があります。
- モデルはプロンプトに完全に一致する動画の生成に失敗する可能性があります。
- プロンプトの追従はプロンプトスタイルに大きく影響されます。






