LTX-Videoオープンソースビデオ生成モデル - テキストからビデオ、画像からビデオを生成することをサポートし、リアルタイムで高品質ビデオを生成します

ホーム

LTX Video

jobs-gitによって開発

DiTアーキテクチャに基づく初のリアルタイム高品質動画生成モデルで、テキストから動画および画像から動画の生成をサポート

テキスト生成ビデオ英語オープンソースライセンス:その他 #リアルタイム高精細動画生成 #DiTアーキテクチャ #マルチモーダル入力対応

ダウンロード数 22

リリース時間 : 1/29/2025

モデル概要

LTXビデオは拡散ベースのリアルタイム動画生成モデルで、768x512解像度と24フレーム/秒で高品質な動画を生成可能。テキストから動画と画像+テキストから動画の2つの生成モードをサポート。

モデル特徴

リアルタイム高品質動画生成

768x512解像度、24フレーム/秒で動画を生成可能で、リアルタイム再生よりも高速

デュアルモード対応

テキストから動画と画像+テキストから動画の2つの生成モードを同時にサポート

高解像度出力

最高パフォーマンス解像度は720x1280未満で、リアルで豊かなコンテンツのHD動画を生成可能

モデル能力

テキストから動画生成

画像から動画生成

高精細動画合成

リアルタイム動画レンダリング

使用事例

クリエイティブコンテンツ生成

自然シーン生成

波打ち際などの自然シーンの高品質動画を生成

リアルな光と影の効果と水の動きを持つ一貫性のある動画を生成

コンセプトビジュアライゼーション

テキスト記述に基づいて抽象的な概念を可視化

テキスト記述に合致するクリエイティブな動画コンテンツを生成

映像プリプロダクション

ストーリーボード生成

映像プロジェクトの初期ビジュアルコンセプトを迅速に生成

監督とチームがシーンを迅速に可視化するのを支援

🚀 LTX-Videoモデルカード

LTX-Videoは、リアルタイムで高品質なビデオを生成できる、DiTベースの初のビデオ生成モデルです。768x512解像度で24FPSのビデオを、見る速度よりも速く生成します。多様なビデオの大規模データセットで学習されており、リアルで多様な内容を持つ高解像度ビデオを生成します。このモデルは、テキストからビデオ、および画像+テキストからビデオの両方のユースケースに対応しています。


長い茶色の髪と明るい肌を持つ女性が、別の女性に微笑んでいます... 長い茶色の髪と明るい肌を持つ女性が、長い金色の髪を持つ別の女性に微笑んでいます。茶色の髪の女性は黒いジャケットを着ており、右頬に小さくほとんど目立たないほくろがあります。カメラのアングルはクローズアップで、茶色の髪の女性の顔に焦点が合っています。照明は暖かく自然なもので、おそらく夕日からのもので、シーンに柔らかい光を投げかけています。このシーンは実写映像のように見えます。	夜、女性が市内の通りに駐車された白いジープから立ち去ります... 夜、女性が市内の通りに駐車された白いジープから立ち去り、階段を上り、ドアをノックします。女性は暗いジャケットとジーンズを着ており、通りの左側に駐車されたジープから背を向けて立ち去ります。彼女はゆっくりと歩き、腕を少し振りながら歩いています。通りは薄暗く、街灯が濡れた舗装に光を投げかけています。暗いジャケットとジーンズを着た男性が反対方向にジープの前を通り過ぎます。カメラは女性の後ろから、緑のドアがある建物に向かって階段を上る女性を追いかけます。彼女は階段の上に着き、左に曲がり、建物に向かって歩き続けます。彼女はドアに着き、右手でドアをノックします。カメラは静止したまま、ドア口に焦点を合わせています。このシーンは実写映像で撮影されています。	ブロンドの髪を束ねた女性が、黒いドレスを着ています... ブロンドの髪を束ねた女性が、シークインと真珠のイヤリングを着た黒いドレスを着て、悲しい表情で下を見ています。カメラは静止したまま、女性の顔に焦点を合わせています。照明は薄暗く、彼女の顔に柔らかい影を落としています。このシーンは映画またはテレビ番組のように見えます。	カメラが雪に覆われた山脈をパンします... カメラが雪に覆われた山脈をパンし、雪を被った山頂と谷の広大な景色を見せます。山々は厚い雪の層で覆われており、一部の地域はほぼ白く見える一方で、他の地域は少し暗く、ほぼ灰色がかった色合いを持っています。山頂は鋭く不規則で、一部は急に空に突き抜ける一方で、他の山頂はより丸みを帯びています。谷は深く狭く、急な斜面も雪で覆われています。前景の木々はほとんど葉が落ちており、枝にはわずかに葉が残っているだけです。空は曇っており、厚い雲が太陽を隠しています。全体的な印象は平和で静けさが漂っており、雪に覆われた山々は自然の力と美しさの証です。
明るい肌の女性が、青いジャケットと黒い帽子を着ています... 明るい肌の女性が、青いジャケットとベール付きの黒い帽子を着て、下を見て右を見た後、話しながら上を見返します。彼女は茶色の髪を束ねており、薄茶色の眉毛を持ち、ジャケットの下に白い襟付きのシャツを着ています。カメラは彼女が話す間、顔に焦点を合わせたまま静止しています。背景はピンぼけしていますが、木々と時代劇の衣装を着た人々が見えます。このシーンは実写映像で撮影されています。	薄暗い部屋で、男性がヴィンテージの電話で話しています... 薄暗い部屋で、男性がヴィンテージの電話で話し、電話を切り、悲しい表情で下を見ます。彼は右手で黒いダイヤル式電話を右耳に当て、左手で琥珀色の液体が入ったロックスグラスを持っています。彼は白いシャツの上に茶色のスーツジャケットを着ており、左手の薬指に金の指輪をしています。彼の短い髪はきちんと梳かれており、明るい肌に目の周りに目立ったしわがあります。カメラは静止したまま、彼の顔と上半身に焦点を合わせています。部屋は暗く、左側の画面外から暖かい光源が照らしており、彼の後ろの壁に影を落としています。このシーンは映画のように見えます。	刑務所の警備員がセルのドアを開けます... 刑務所の警備員がセルのドアを開け、テーブルに座った若い男性と女性を見せます。警備員は左胸にバッジが付いた濃い青色の制服を着ており、右手に持った鍵でセルのドアを開け、引き開きます。彼は短い茶色の髪、明るい肌、無表情です。若い男性は黒と白の縞模様のシャツを着て、白いテーブルクロスがかけられたテーブルに座って、女性と向かい合っています。彼は短い茶色の髪、明るい肌、無表情です。女性は濃い青色のシャツを着て、若い男性の向かいに座っており、顔を彼の方に向けています。彼女は短い金色の髪と明るい肌を持っています。カメラは静止したまま、警備員の少し右側から中距離でシーンを捉えています。部屋は薄暗く、一つの照明器具がテーブルと二人の人物を照らしています。壁は大きな灰色のコンクリートブロックでできており、背景に金属のドアが見えます。このシーンは実写映像で撮影されています。	顔と白いタンクトップに血が付いた女性が... 顔と白いタンクトップに血が付いた女性が、下を見て右を見た後、話しながら上を見返します。彼女は黒い髪を後ろに束ねており、明るい肌を持っており、顔と胸は血で覆われています。カメラのアングルはクローズアップで、女性の顔と上半身に焦点を合わせています。照明は薄暗く青みがかっており、陰鬱で緊迫した雰囲気を醸し出しています。このシーンは映画またはテレビ番組のように見えます。
白髪が目立つ男性が、髭を生やし、灰色のシャツを着ています... 白髪が目立つ男性が、髭を生やし、灰色のシャツを着て、下を見て右を見た後、頭を左に向けます。カメラのアングルはクローズアップで、男性の顔に焦点を合わせています。照明は薄暗く、緑がかった色合いを持っています。このシーンは実写映像のように見えます。	澄んだトルコ青の川が岩の峡谷を流れています... 澄んだトルコ青の川が岩の峡谷を流れ、小さな滝を越えて落ち、谷底に水たまりを作っています。川はシーンの中心で、澄んだ水が周囲の木々と岩を映し出しています。峡谷の壁は急で岩だらけで、一部には植生が生えています。木々はほとんど松で、緑の葉が茶色と灰色の岩と対照をなしています。全体的な雰囲気は平和で静けさが漂っています。	スーツを着た男性が部屋に入り、二人の女性に話しかけます... スーツを着た男性が部屋に入り、ソファに座った二人の女性に話しかけます。男性は金色のネクタイをした暗いスーツを着て、左から部屋に入り、画面の中央に向かって歩きます。彼は短い灰色の髪、明るい肌、真剣な表情を持っています。彼はソファに近づくとき、右手を椅子の背中に置きます。二人の女性が背景の明るい色のソファに座っています。左の女性は薄い青色のセーターを着て、短い金色の髪を持っています。右の女性は白いセーターを着て、短い金色の髪を持っています。カメラは静止したまま、男性が部屋に入るのを捉えています。部屋は明るく照らされており、暖かい色調が壁と家具に反射しています。このシーンは映画またはテレビ番組のように見えます。	波が海岸線の鋭い岩に打ち寄せます... 波が海岸線の鋭い岩に打ち寄せ、白い泡を空中に飛ばします。岩は濃い灰色で、鋭いエッジと深い裂け目を持っています。水は澄んだ青緑色で、波が岩に打ちつけるところで白い泡が立っています。空は薄い灰色で、地平線にいくつかの白い雲が点在しています。
カメラが高層ビルの街並みをパンします... カメラが中央に円形の建物がある高層ビルの街並みを左から右にパンします。建物は様々な灰色と白色の色合いを持っており、円形の建物は緑色の屋根を持っています。カメラのアングルは高く、街を下から見ています。照明は明るく、左上から太陽が照らしており、建物に影を落としています。このシーンはコンピュータ生成画像です。	男性が窓に向かって歩き、外を見た後、振り返ります... 男性が窓に向かって歩き、外を見た後、振り返ります。彼は短い黒い髪、暗い肌を持ち、赤と灰色のスカーフの上に茶色のコートを着ています。彼は左から右に窓に向かって歩き、視線は外の何かに固定されています。カメラは中距離で彼の後ろから追いかけます。部屋は明るく照らされており、白い壁と白いカーテンがかけられた大きな窓があります。彼が窓に近づくと、少し左に頭を傾け、その後右に戻します。その後、全身を右に向け、窓に向かって立ちます。カメラは彼が窓の前に立っている間、静止したままです。このシーンは実写映像で撮影されています。	濃い青色の制服と帽子を着た二人の警察官が... 濃い青色の制服と帽子を着た二人の警察官が、画面の左側のドアから薄暗い部屋に入ります。最初の警察官は短い茶色の髪とヒゲを持ち、最初に部屋に入り、その後、頭を剃ってアゴひげを生やしたパートナーが続きます。二人の警察官は真剣な表情を持ち、部屋の奥に進む際に一定のペースを保っています。カメラは静止したまま、彼らが入るときに少し低い角度から捉えています。部屋はレンガの壁が露出しており、波形の金属の天井があり、背景に鉄格子の窓が見えます。照明は弱く、警察官の顔に影を落とし、厳粛な雰囲気を強調しています。このシーンは映画またはテレビ番組のように見えます。	短い茶色の髪を持つ女性が、栗色の袖なしトップを着て... 短い茶色の髪を持つ女性が、栗色の袖なしトップと銀のネックレスを着て、話しながら部屋を歩き、その後、ピンクの髪と白いシャツを着た女性がドア口に現れて叫びます。最初の女性は左から右に歩き、表情は真剣です。彼女は明るい肌を持ち、眉毛が少し寄せられています。二人目の女性はドア口に立ち、叫び声を上げて口を開けています。彼女は明るい肌を持ち、目が大きく開いています。部屋は薄暗く、背景に本棚が見えます。カメラは最初の女性が歩くのを追いかけ、その後、二人目の女性の顔のクローズアップに切り替わります。このシーンは実写映像で撮影されています。

🚀 クイックスタート

このセクションでは、LTX-Videoモデルの基本的な使い方や、必要な情報を提供します。

✨ 主な機能

リアルタイムで高品質なビデオを生成することができます。
768x512解像度で24FPSのビデオを高速に生成します。
多様なビデオの大規模データセットで学習されており、リアルで多様な内容を持つ高解像度ビデオを生成します。
テキストからビデオ、および画像+テキストからビデオの両方のユースケースに対応しています。

📦 インストール

コードベースはPython 3.10.5、CUDAバージョン12.2でテストされており、PyTorch >= 2.1.2をサポートしています。

git clone https://github.com/Lightricks/LTX-Video.git
cd LTX-Video

# 環境を作成
python -m venv env
source env/bin/activate
python -m pip install -e .\[inference-script\]

次に、Hugging Face からモデルをダウンロードします。

from huggingface_hub import snapshot_download

model_path = 'PATH'   # ダウンロードしたチェックポイントを保存するローカルディレクトリ
snapshot_download("Lightricks/LTX-Video", local_dir=model_path, local_dir_use_symlinks=False, repo_type='model')

💻 使用例

基本的な使用法

このモデルは、ライセンスの範囲内で使用することができます。

一般的なヒント

モデルは、解像度が32で割り切れ、フレーム数が8で割り切れる + 1（例：257）の条件で動作します。解像度またはフレーム数が32または8 + 1で割り切れない場合、入力は-1でパディングされ、その後目的の解像度とフレーム数にクロップされます。
モデルは、解像度720 x 1280以下、フレーム数257以下で最適に動作します。
プロンプトは英語で入力する必要があります。詳細なプロンプトほど良い結果が得られます。良いプロンプトの例としては、The turquoise waves crash against the dark, jagged rocks of the shore, sending white foam spraying into the air. The scene is dominated by the stark contrast between the bright blue water and the dark, almost black rocks. The water is a clear, turquoise color, and the waves are capped with white foam. The rocks are dark and jagged, and they are covered in patches of green moss. The shore is lined with lush green vegetation, including trees and bushes. In the background, there are rolling hills covered in dense forest. The sky is cloudy, and the light is dim. のようなものがあります。

オンラインデモ

以下のリンクから、すぐにモデルを利用できます。

ComfyUI

ComfyUIでこのモデルを使用するには、専用のComfyUIリポジトリの指示に従ってください。

ローカルで実行

インストール

コードベースはPython 3.10.5、CUDAバージョン12.2でテストされており、PyTorch >= 2.1.2をサポートしています。

git clone https://github.com/Lightricks/LTX-Video.git
cd LTX-Video

# 環境を作成
python -m venv env
source env/bin/activate
python -m pip install -e .\[inference-script\]

次に、Hugging Face からモデルをダウンロードします。

from huggingface_hub import snapshot_download

model_path = 'PATH'   # ダウンロードしたチェックポイントを保存するローカルディレクトリ
snapshot_download("Lightricks/LTX-Video", local_dir=model_path, local_dir_use_symlinks=False, repo_type='model')

推論

モデルを使用するには、inference.py の推論コードに従ってください。

テキストからビデオの生成

python inference.py --ckpt_dir 'PATH' --prompt "PROMPT" --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED

画像からビデオの生成

python inference.py --ckpt_dir 'PATH' --prompt "PROMPT" --input_image_path IMAGE_PATH --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED

Diffusers 🧨

LTX Videoは、Diffusers Pythonライブラリと互換性があります。テキストからビデオ、および画像からビデオの両方の生成をサポートしています。

以下の例を試す前に、diffusers をインストールしてください。

pip install -U git+https://github.com/huggingface/diffusers

これで、以下の例を実行できます。

import torch
from diffusers import LTXPipeline
from diffusers.utils import export_to_video

pipe = LTXPipeline.from_pretrained("Lightricks/LTX-Video", torch_dtype=torch.bfloat16)
pipe.to("cuda")

prompt = "A woman with long brown hair and light skin smiles at another woman with long blonde hair. The woman with brown hair wears a black jacket and has a small, barely noticeable mole on her right cheek. The camera angle is a close-up, focused on the woman with brown hair's face. The lighting is warm and natural, likely from the setting sun, casting a soft glow on the scene. The scene appears to be real-life footage"
negative_prompt = "worst quality, inconsistent motion, blurry, jittery, distorted"

video = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    width=704,
    height=480,
    num_frames=161,
    num_inference_steps=50,
).frames[0]
export_to_video(video, "output.mp4", fps=24)

画像からビデオの場合：

import torch
from diffusers import LTXImageToVideoPipeline
from diffusers.utils import export_to_video, load_image

pipe = LTXImageToVideoPipeline.from_pretrained("Lightricks/LTX-Video", torch_dtype=torch.bfloat16)
pipe.to("cuda")

image = load_image(
    "https://huggingface.co/datasets/a-r-r-o-w/tiny-meme-dataset-captioned/resolve/main/images/8.png"
)
prompt = "A young girl stands calmly in the foreground, looking directly at the camera, as a house fire rages in the background. Flames engulf the structure, with smoke billowing into the air. Firefighters in protective gear rush to the scene, a fire truck labeled '38' visible behind them. The girl's neutral expression contrasts sharply with the chaos of the fire, creating a poignant and emotionally charged scene."
negative_prompt = "worst quality, inconsistent motion, blurry, jittery, distorted"

video = pipe(
    image=image,
    prompt=prompt,
    negative_prompt=negative_prompt,
    width=704,
    height=480,
    num_frames=161,
    num_inference_steps=50,
).frames[0]
export_to_video(video, "output.mp4", fps=24)

詳細については、公式ドキュメントを参照してください。

Diffusersは、from_single_file() メソッドを使用して、元のLTXチェックポイントから直接読み込むこともサポートしています。詳細については、このセクションを参照してください。

📚 ドキュメント

モデル詳細

属性	详情
開発元	Lightricks
モデルタイプ	拡散ベースのテキストからビデオ、および画像からビデオの生成モデル
言語	英語

制限事項

このモデルは、事実情報を提供することを目的としていない、または提供することができません。
統計モデルであるため、このチェックポイントは既存の社会的バイアスを増幅する可能性があります。
モデルは、プロンプトに完全に一致するビデオを生成できない場合があります。
プロンプトの追従性は、プロンプトのスタイルに大きく影響されます。

重要提示

⚠️ 重要提示

このモデルは事実情報を提供することを目的としていない、または提供することができません。また、統計モデルであるため、既存の社会的バイアスを増幅する可能性があります。

使用建议

💡 使用建议

モデルは、解像度が32で割り切れ、フレーム数が8で割り切れる + 1（例：257）の条件で動作します。

モデルは、解像度720 x 1280以下、フレーム数257以下で最適に動作します。

プロンプトは英語で入力する必要があります。詳細なプロンプトほど良い結果が得られます。