AnimateDiff-Lightningオープンソース動画生成モデル - 超高速でテキストを瞬時に動画化

Animatediff Lightning

JCTNによって開発

超高速テキスト生成動画モデル、生成速度はオリジナルAnimateDiffの10倍以上

テキスト生成ビデオオープンソースライセンス:Openrail #超高速動画生成 #クロスモデル蒸留 #テキストから動画へ

ダウンロード数 282

リリース時間 : 3/21/2024

モデル概要

AnimateDiff-LightningはAnimateDiff SD1.5 v2を蒸留して得られた超高速テキスト生成動画モデルで、1ステップ、2ステップ、4ステップ、8ステップ推論をサポートし、動画スタイル変換や動的コンテンツ生成に特に適しています。

モデル特徴

超高速生成

オリジナルAnimateDiff比10倍以上の生成速度

多段階推論サポート

1ステップ、2ステップ、4ステップ、8ステップ蒸留モデルチェックポイントを提供し、様々な品質ニーズに対応

クロスモデル互換性

リアルスタイルやアニメスタイルを含む多様なスタイリッシュなベースモデルと組み合わせ可能

動画スタイル変換

ControlNetを利用した動画から動画へのスタイル変換アプリケーションに特に適しています

モデル能力

テキスト生成動画

動画スタイル変換

動的コンテンツ生成

高速推論

使用事例

クリエイティブコンテンツ生成

ショート動画制作

テキストプロンプトに基づきクリエイティブなショート動画コンテンツを迅速生成

数秒で高品質なショート動画を生成可能

アニメーション制作

アニメスタイルのアニメーションクリップを生成

多様なアニメスタイルベースモデルをサポート

動画編集

動画スタイル変換

実写動画を異なるアートスタイルに変換

オリジナル動画の動きを保持しながらビジュアルスタイルを変更

🚀 AnimateDiff-Lightning

AnimateDiff-Lightningは、超高速なテキストから動画を生成するモデルです。元のAnimateDiffよりも10倍以上高速に動画を生成することができます。詳細については、当社の研究論文AnimateDiff-Lightning: Cross-Model Diffusion Distillationを参照してください。本モデルは研究の一環として公開されています。

🚀 クイックスタート

AnimateDiff-Lightningは、スタイル化されたベースモデルと組み合わせて使用すると、最良の結果を得ることができます。以下のベースモデルの使用をおすすめします。

リアリスティック

アニメ＆カートゥーン

また、さまざまな設定を自由に試してみることをおすすめします。2ステップモデルで3回の推論ステップを使用すると、素晴らしい結果が得られることがわかっています。特定のベースモデルでは、CFGを使用するとより良い結果が得られます。また、Motion LoRAsを使用すると、より強力なモーションが得られるため、おすすめです。ウォーターマークを避けるために、強度0.7～0.8のMotion LoRAsを使用しています。

✨ 主な機能

超高速なテキストから動画への生成
元のAnimateDiffよりも10倍以上高速な動画生成
1ステップ、2ステップ、4ステップ、8ステップの蒸留モデルのチェックポイントを提供
動画から動画への生成にも優れた性能を発揮

📦 インストール

このセクションでは、DiffusersとComfyUIを使用したAnimateDiff-Lightningのインストール方法を説明します。

Diffusersを使用したインストール

import torch
from diffusers import AnimateDiffPipeline, MotionAdapter, EulerDiscreteScheduler
from diffusers.utils import export_to_gif
from huggingface_hub import hf_hub_download
from safetensors.torch import load_file

device = "cuda"
dtype = torch.float16

step = 4  # Options: [1,2,4,8]
repo = "ByteDance/AnimateDiff-Lightning"
ckpt = f"animatediff_lightning_{step}step_diffusers.safetensors"
base = "emilianJR/epiCRealism"  # Choose to your favorite base model.

adapter = MotionAdapter().to(device, dtype)
adapter.load_state_dict(load_file(hf_hub_download(repo ,ckpt), device=device))
pipe = AnimateDiffPipeline.from_pretrained(base, motion_adapter=adapter, torch_dtype=dtype).to(device)
pipe.scheduler = EulerDiscreteScheduler.from_config(pipe.scheduler.config, timestep_spacing="trailing", beta_schedule="linear")

output = pipe(prompt="A girl smiling", guidance_scale=1.0, num_inference_steps=step)
export_to_gif(output.frames[0], "animation.gif")

ComfyUIを使用したインストール

animatediff_lightning_workflow.jsonをダウンロードし、ComfyUIにインポートします。
ノードをインストールします。手動でインストールすることも、ComfyUI-Managerを使用することもできます。
- ComfyUI-AnimateDiff-Evolved
- ComfyUI-VideoHelperSuite
好きなベースモデルのチェックポイントをダウンロードし、/models/checkpoints/に配置します。
AnimateDiff-Lightningのチェックポイントanimatediff_lightning_Nstep_comfyui.safetensorsをダウンロードし、/custom_nodes/ComfyUI-AnimateDiff-Evolved/models/に配置します。

ComfyUI Workflow

💻 使用例

テキストから動画への生成

上記のDiffusersのコード例を参照してください。

動画から動画への生成

AnimateDiff-Lightningは、動画から動画への生成にも優れた性能を発揮します。ControlNetを使用した最もシンプルなComfyUIワークフローを提供しています。

animatediff_lightning_v2v_openpose_workflow.jsonをダウンロードし、ComfyUIにインポートします。
ノードをインストールします。手動でインストールすることも、ComfyUI-Managerを使用することもできます。
好きなベースモデルのチェックポイントをダウンロードし、/models/checkpoints/に配置します。
AnimateDiff-Lightningのチェックポイントanimatediff_lightning_Nstep_comfyui.safetensorsをダウンロードし、/custom_nodes/ComfyUI-AnimateDiff-Evolved/models/に配置します。
ControlNet OpenPoseのcontrol_v11p_sd15_openpose.pthチェックポイントを/models/controlnet/にダウンロードします。
動画をアップロードし、パイプラインを実行します。

追加注意事項

動画はあまり長く、または解像度が高すぎないようにしてください。テストには、576x1024、8秒、30fpsの動画を使用しています。
フレームレートを入力動画に合わせて設定してください。これにより、オーディオが出力動画と一致します。
DWPoseは初回実行時に自動的にチェックポイントをダウンロードします。
DWPoseはUIで停止することがありますが、実際にはパイプラインはバックグラウンドで実行されています。ComfyUIのログと出力フォルダを確認してください。

ComfyUI OpenPose Workflow

📄 ライセンス

このモデルは、CreativeML OpenRAIL-Mライセンスの下で公開されています。

📚 ドキュメント

詳細については、当社の研究論文AnimateDiff-Lightning: Cross-Model Diffusion Distillationを参照してください。

📖 引用

@misc{lin2024animatedifflightning,
      title={AnimateDiff-Lightning: Cross-Model Diffusion Distillation}, 
      author={Shanchuan Lin and Xiao Yang},
      year={2024},
      eprint={2403.12706},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}