animatediff-motion-adapter-v1-5-3オープンソースモデル - Stable Diffusionで簡単に連続した動画を作成

Animatediff Motion Adapter V1 5 3

guoywwによって開発

AnimateDiffは既存のStable Diffusionテキストから画像生成モデルを利用して動画を作成する技術で、モーションモジュール層を挿入することで画像フレーム間の連続的な動きを実現します。

動画処理 #テキストから動画生成 #モーションモジュール拡張 #Stable Diffusion対応

ダウンロード数 800

リリース時間 : 12/18/2023

モデル概要

この技術は凍結されたテキストから画像生成モデルにモーションモジュール層を挿入し、ビデオクリップでトレーニングして動きの事前知識を抽出することで、画像フレーム間に連続的な動きを生み出します。既存のStable Diffusionモデルにモーションモジュールを適用することが可能です。

モデル特徴

モーションモジュール適応

MotionAdapterとUNetMotionModelを使用して既存のStable Diffusionモデルに動きの機能を追加

動画の連続性

ResNetとアテンションブロックの後にモーションモジュールを挿入し、画像フレーム間の動きの連続性を確保

モデル互換性

Realistic Vision V5.1などの様々なStable Diffusionテキストから画像生成モデルと組み合わせて使用可能

モデル能力

テキストから動画生成

画像アニメーション化

動画スタイル転送

使用事例

クリエイティブコンテンツ生成

夕日のアニメーション生成

テキスト記述に基づいて連続的な夕日シーンのアニメーションを生成

16フレームの夕日シーンアニメーションの例で、漁船、波、カモメなどの要素を含む

デジタルアート創作

アートスタイルアニメーション

アートスタイルの画像をアニメーションに変換

🚀 AnimateDiff

AnimateDiffは、既存のStable Diffusionのテキストから画像へのモデルを使用して動画を作成できる手法です。この手法は、凍結されたテキストから画像へのモデルにモーションモジュール層を挿入し、動画クリップで学習することでモーションの事前知識を抽出します。

これらのモーションモジュールは、Stable DiffusionのUNetのResNetとAttentionブロックの後に適用されます。その目的は、画像フレーム間で一貫したモーションを導入することです。これらのモジュールをサポートするために、MotionAdapterとUNetMotionModelの概念を導入しています。これらは、既存のStable Diffusionモデルでこれらのモーションモジュールを使う便利な方法を提供します。

masterpiece, bestquality, sunset.

🚀 クイックスタート

以下の例は、既存のStable Diffusionのテキストから画像へのモデルでモーションモジュールをどのように利用できるかを示しています。

💻 使用例

基本的な使用法

import torch
from diffusers import MotionAdapter, AnimateDiffPipeline, EulerAncestralDiscreteScheduler
from diffusers.utils import export_to_gif

# Load the motion adapter
adapter = MotionAdapter.from_pretrained("guoyww/animatediff-motion-adapter-v1-5-3")
# load SD 1.5 based finetuned model
model_id = "SG161222/Realistic_Vision_V5.1_noVAE"
pipe = AnimateDiffPipeline.from_pretrained(model_id, motion_adapter=adapter)
scheduler = EulerAncestralDiscreteScheduler.from_pretrained(
    model_id,
    subfolder="scheduler",
    beta_schedule="linear",
)
pipe.scheduler = scheduler

# enable memory savings
pipe.enable_vae_slicing()
pipe.enable_model_cpu_offload()

output = pipe(
    prompt=(
        "masterpiece, bestquality, highlydetailed, ultradetailed, sunset, "
        "orange sky, warm lighting, fishing boats, ocean waves seagulls, "
        "rippling water, wharf, silhouette, serene atmosphere, dusk, evening glow, "
        "golden hour, coastal landscape, seaside scenery"
    ),
    negative_prompt="bad quality, worse quality",
    num_frames=16,
    guidance_scale=7.5,
    num_inference_steps=25,
    generator=torch.Generator("cpu").manual_seed(42),
)
frames = output.frames[0]
export_to_gif(frames, "animation.gif")