AnimateDiff Motion Adapter v1 - 4オープンソースモデル - Stable Diffusionを無料で利用して動画を生成

Animatediff Motion Adapter V1 4

guoywwによって開発

AnimateDiffは既存のStable Diffusionテキストから画像生成モデルを使用してビデオを作成する方法です

テキスト生成ビデオ #テキストからビデオ変換 #モーションモジュール拡張 #Stable Diffusion対応

ダウンロード数 48

リリース時間 : 11/1/2023

モデル概要

この方法は、凍結されたテキストから画像生成モデルにモーションモジュール層を挿入し、ビデオクリップでトレーニングしてモーションの事前知識を抽出することで実現されます。これらのモーションモジュールは、Stable Diffusion UNetのResNetとアテンションブロックの後に適用され、画像フレーム間に連続したモーションを導入することを目的としています。

モデル特徴

モーションモジュール挿入

凍結されたテキストから画像生成モデルにモーションモジュール層を挿入し、画像フレーム間の連続したモーションを実現

既存モデルとの互換性

既存のStable Diffusionテキストから画像生成モデルと組み合わせて使用可能で、モデル全体の再トレーニングは不要

モーション事前知識抽出

ビデオクリップでトレーニングしてモーションの事前知識を抽出

メモリ最適化

VAEスライシングやモデルのCPUオフロードなどのメモリ最適化技術をサポート

モデル能力

テキストからビデオ生成

静止画像のアニメーション化

連続モーション生成

使用事例

クリエイティブコンテンツ生成

夕日のシーンアニメーション

静止した夕日のシーンを連続したモーションを持つアニメーションに変換

16フレームの夕日アニメーションを生成し、漁船、波、カモメなどの動的要素を含む

アート創作

アートアニメーション創作

テキスト記述に基づいてアートスタイルの短編アニメーションを生成

🚀 AnimateDiff

AnimateDiffは、既存のStable Diffusion Text to Imageモデルを使用して動画を作成することができる手法です。既存の画像生成モデルを利用し、動画の作成に特化した機能を追加することで、新たな表現可能性を開拓します。

🚀 クイックスタート

AnimateDiffは、凍結されたテキストから画像へのモデルにモーションモジュール層を挿入し、動画クリップで学習することでモーションプライオを抽出します。これらのモーションモジュールは、Stable Diffusion UNetのResNetとAttentionブロックの後に適用され、画像フレーム間に一貫したモーションを導入します。これらのモジュールをサポートするために、MotionAdapterとUNetMotionModelの概念を導入しています。これらは、既存のStable Diffusionモデルでこれらのモーションモジュールを使用する便利な方法となっています。

masterpiece, bestquality, sunset.

💻 使用例

基本的な使用法

import torch
from diffusers import MotionAdapter, AnimateDiffPipeline, DDIMScheduler
from diffusers.utils import export_to_gif

# Load the motion adapter
adapter = MotionAdapter.from_pretrained("guoyww/animatediff-motion-adapter-v1-4")
model_id = "SG161222/Realistic_Vision_V5.1_noVAE"
pipe = AnimateDiffPipeline.from_pretrained(model_id, motion_adapter=adapter)
scheduler = DDIMScheduler.from_pretrained(
    model_id, subfolder="scheduler", clip_sample=False, timestep_spacing="linspace", steps_offset=1
)
pipe.scheduler = scheduler

# enable memory savings
pipe.enable_vae_slicing()
pipe.enable_model_cpu_offload()

output = pipe(
    prompt=(
        "masterpiece, bestquality, highlydetailed, ultradetailed, sunset, "
        "orange sky, warm lighting, fishing boats, ocean waves seagulls, "
        "rippling water, wharf, silhouette, serene atmosphere, dusk, evening glow, "
        "golden hour, coastal landscape, seaside scenery"
    ),
    negative_prompt="bad quality, worse quality",
    num_frames=16,
    guidance_scale=7.5,
    num_inference_steps=25,
    generator=torch.Generator("cpu").manual_seed(42),
)
frames = output.frames[0]
export_to_gif(frames, "animation.gif")

⚠️ 重要提示

AnimateDiffは、微調整されたStable Diffusionモデルでより良い結果が得られます。サンプルをクリップできるスケジューラを使用する場合は、clip_sample=Falseに設定して無効にすることを確認してください。これは生成されたサンプルに悪影響を及ぼす可能性があります。