LTX Video 0.9.1 Diffusers
Diffusersフォーマットに基づくLTX-Videoモデルで、テキストから動画生成と画像から動画生成機能をサポート
ダウンロード数 3,951
リリース時間 : 12/22/2024
モデル概要
LTX-Videoはテキストから動画、画像から動画を生成するモデルで、テキスト説明や入力画像に基づいて高品質な動画コンテンツを生成できます。
モデル特徴
高品質動画生成
連続した動きとディテールを備えた高品質動画を生成可能
デュアルモードサポート
テキストから動画生成と画像から動画生成の2つのモードを同時にサポート
精密制御
プロンプトとネガティブプロンプトによる生成内容の精密制御をサポート
パラメータ調整可能
フレーム数、解像度、推論ステップ数など複数のパラメータ調整オプションを提供
モデル能力
テキストから動画生成
画像から動画生成
動画スタイル制御
動画コンテンツ編集
使用事例
クリエイティブコンテンツ制作
ショート動画制作
テキスト説明に基づいてクリエイティブなショート動画コンテンツを自動生成
ソーシャルメディア用のショート動画を迅速に生成
広告制作
製品画像に基づいて動的な広告動画を生成
広告動画制作のコストと時間を削減
映像プリプロダクション
コンセプトビジュアライゼーション
脚本シーンを迅速に可視化
監督とチームがシーン構想を迅速に理解するのを支援
## 🚀 テキストから動画生成モデル (LTX-Video)
このプロジェクトは、https://huggingface.co/Lightricks/LTX-Video (バージョン0.9.1) の非公式Diffusers形式の重みを提供します。テキストから動画生成、画像から動画生成の機能を備えています。
## 🚀 クイックスタート
このモデルは、テキスト入力から動画を生成することができます。また、画像を入力として動画を生成することも可能です。
## 💻 使用例
### 基本的な使用法
#### テキストから動画生成
```python
import torch
from diffusers import LTXPipeline
from diffusers.utils import export_to_video
pipe = LTXPipeline.from_pretrained("a-r-r-o-w/LTX-Video-0.9.1-diffusers", torch_dtype=torch.bfloat16)
pipe.to("cuda")
prompt = "A woman with long brown hair and light skin smiles at another woman with long blonde hair. The woman with brown hair wears a black jacket and has a small, barely noticeable mole on her right cheek. The camera angle is a close-up, focused on the woman with brown hair's face. The lighting is warm and natural, likely from the setting sun, casting a soft glow on the scene. The scene appears to be real-life footage"
negative_prompt = "worst quality, inconsistent motion, blurry, jittery, distorted"
video = pipe(
prompt=prompt,
negative_prompt=negative_prompt,
width=704,
height=480,
num_frames=161,
num_inference_steps=50,
decode_timestep=0.03,
decode_noise_scale=0.025,
).frames[0]
export_to_video(video, "output.mp4", fps=24)
画像から動画生成
import torch
from diffusers import LTXImageToVideoPipeline
from diffusers.utils import export_to_video, load_image
pipe = LTXImageToVideoPipeline.from_pretrained("a-r-r-o-w/LTX-Video-0.9.1-diffusers", torch_dtype=torch.bfloat16)
pipe.to("cuda")
image = load_image(
"https://huggingface.co/datasets/a-r-r-o-w/tiny-meme-dataset-captioned/resolve/main/images/8.png"
)
prompt = "A young girl stands calmly in the foreground, looking directly at the camera, as a house fire rages in the background. Flames engulf the structure, with smoke billowing into the air. Firefighters in protective gear rush to the scene, a fire truck labeled '38' visible behind them. The girl's neutral expression contrasts sharply with the chaos of the fire, creating a poignant and emotionally charged scene."
negative_prompt = "worst quality, inconsistent motion, blurry, jittery, distorted"
video = pipe(
image=image,
prompt=prompt,
negative_prompt=negative_prompt,
width=704,
height=480,
num_frames=161,
num_inference_steps=50,
decode_timestep=0.03,
decode_noise_scale=0.025,
).frames[0]
export_to_video(video, "output.mp4", fps=24)
Xclip Base Patch32
MIT
X-CLIPはCLIPの拡張版で、汎用ビデオ言語理解のために(ビデオ、テキスト)ペアで対照学習を行い、ビデオ分類やビデオ-テキスト検索などのタスクに適しています。
テキスト生成ビデオ
Transformers 英語

X
microsoft
309.80k
84
LTX Video
その他
DiTベースの初の動画生成モデルで、高品質な動画をリアルタイムに生成可能。テキストから動画、画像+テキストから動画の2つのシナリオに対応。
テキスト生成ビデオ 英語
L
Lightricks
165.42k
1,174
Wan2.1 14B VACE GGUF
Apache-2.0
Wan2.1-VACE-14BモデルのGGUF形式のバージョンで、主にテキストからビデオの生成タスクに使用されます。
テキスト生成ビデオ
W
QuantStack
146.36k
139
Animatediff Lightning
Openrail
超高速テキスト生成動画モデル、生成速度はオリジナルAnimateDiffの10倍以上
テキスト生成ビデオ
A
ByteDance
144.00k
925
V Express
V-Expressは、オーディオと顔のキーポイント条件に基づいて生成されるビデオ生成モデルで、オーディオ入力を動的なビデオ出力に変換できます。
テキスト生成ビデオ 英語
V
tk93
118.36k
85
Cogvideox 5b
その他
CogVideoXは清影に由来する動画生成モデルのオープンソース版で、高品質な動画生成能力を提供します。
テキスト生成ビデオ 英語
C
THUDM
92.32k
611
Llava NeXT Video 7B Hf
LLaVA-NeXT-Videoはオープンソースのマルチモーダルチャットボットで、動画と画像データの混合トレーニングにより優れた動画理解能力を獲得し、VideoMMEベンチマークでオープンソースモデルのSOTAレベルを達成しました。
テキスト生成ビデオ
Transformers 英語

L
llava-hf
65.95k
88
Wan2.1 T2V 14B Diffusers
Apache-2.0
万2.1は、動画生成の境界を突破することを目的とした包括的なオープンな動画基盤モデルで、中英テキストから動画生成、画像から動画生成など様々なタスクをサポートします。
テキスト生成ビデオ 複数言語対応
W
Wan-AI
48.65k
24
Wan2.1 T2V 1.3B Diffusers
Apache-2.0
万2.1は包括的に開放されたビデオ基盤モデルで、トップクラスの性能、コンシューマー向けGPUサポート、マルチタスク対応、視覚テキスト生成、高効率ビデオVAEなどの特徴を備えています。
テキスト生成ビデオ 複数言語対応
W
Wan-AI
45.29k
38
Wan2.1 T2V 14B
Apache-2.0
万2.1は包括的なオープンソース動画基盤モデルで、テキストから動画生成、画像から動画生成、動画編集、テキストから画像生成、動画から音声生成など多様なタスクに対応し、日中バイリンガルのテキスト生成をサポートします。
テキスト生成ビデオ 複数言語対応
W
Wan-AI
44.88k
1,238
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98