Animatediff-motion-adapter-v1-5オープンソースモデル - テキストから画像生成モデルで無料で連続した動画を生成する

Animatediff Motion Adapter V1 5

guoywwによって開発

AnimateDiffは、既存のStable Diffusionテキストから画像生成モデルを利用してビデオを生成できる技術で、モーションモジュール層を挿入することで画像フレーム間の連続的な動きを実現します。

動画処理 #テキストからビデオへの変換 #モーションモジュールの埋め込み #Stable Diffusion拡張

ダウンロード数 649

リリース時間 : 11/1/2023

モデル概要

この技術は、固定されたテキストから画像生成モデルにモーションモジュール層を挿入し、ビデオクリップでトレーニングを行うことで運動の事前知識を抽出し、既存のStable Diffusionモデルが連続的なビデオコンテンツを生成できるようにします。

モデル特徴

モーションモジュール適応

モーションモジュール層を挿入することで、静的画像生成モデルにビデオ生成能力を付与

モデル互換性

既存のStable Diffusionテキストから画像生成モデルと組み合わせて使用可能で、完全な再トレーニングは不要

運動事前学習

ビデオクリップのトレーニングにより運動パターンを抽出し、フレーム間の連続的な動きを実現

モデル能力

テキストからビデオ生成

静的画像のアニメーション化

連続的な運動生成

使用事例

クリエイティブコンテンツ生成

風景アニメーション

静的な風景の説明を動的なビデオに変換、例えば夕日、波などのシーン

16フレームの連続アニメーションを生成し、自然要素の動的効果を表現

概念の可視化

抽象的な概念やテキスト記述を動的なビジュアル表現に変換

ソーシャルメディアコンテンツ

ショートビデオ素材生成

ソーシャルメディア向けのショートビデオコンテンツを迅速に生成

🚀 AnimateDiff

AnimateDiffは、既存のStable Diffusionのテキストから画像へのモデルを使用して動画を作成できる手法です。既存のテキストから画像へのモデルにモーションモジュール層を挿入し、動画クリップで学習することで、モーションの事前知識を抽出します。

🚀 クイックスタート

AnimateDiffは、既存のStable Diffusionのテキストから画像へのモデルを活用して動画を生成する方法を提供します。これは、凍結されたテキストから画像へのモデルにモーションモジュール層を挿入し、動画クリップで学習することで、モーションの事前知識を抽出することで実現されます。これらのモーションモジュールは、Stable DiffusionのUNetのResNetとAttentionブロックの後に適用され、画像フレーム間で一貫したモーションを導入します。これらのモジュールをサポートするために、MotionAdapterとUNetMotionModelの概念を導入しています。これらは、既存のStable Diffusionモデルでこれらのモーションモジュールを使用する便利な方法を提供します。

masterpiece, bestquality, sunset.

💻 使用例

基本的な使用法

import torch
from diffusers import MotionAdapter, AnimateDiffPipeline, DDIMScheduler
from diffusers.utils import export_to_gif

# Load the motion adapter
adapter = MotionAdapter.from_pretrained("guoyww/animatediff-motion-adapter-v1-5")
# load SD 1.5 based finetuned model
model_id = "SG161222/Realistic_Vision_V5.1_noVAE"
pipe = AnimateDiffPipeline.from_pretrained(model_id, motion_adapter=adapter)
scheduler = DDIMScheduler.from_pretrained(
    model_id, subfolder="scheduler", clip_sample=False, timestep_spacing="linspace", steps_offset=1
)
pipe.scheduler = scheduler

# enable memory savings
pipe.enable_vae_slicing()
pipe.enable_model_cpu_offload()

output = pipe(
    prompt=(
        "masterpiece, bestquality, highlydetailed, ultradetailed, sunset, "
        "orange sky, warm lighting, fishing boats, ocean waves seagulls, "
        "rippling water, wharf, silhouette, serene atmosphere, dusk, evening glow, "
        "golden hour, coastal landscape, seaside scenery"
    ),
    negative_prompt="bad quality, worse quality",
    num_frames=16,
    guidance_scale=7.5,
    num_inference_steps=25,
    generator=torch.Generator("cpu").manual_seed(42),
)
frames = output.frames[0]
export_to_gif(frames, "animation.gif")

⚠️ 重要提示

AnimateDiffは、ファインチューニングされたStable Diffusionモデルでより良い結果が得られます。サンプルをクリップできるスケジューラを使用する場合は、clip_sample=Falseに設定して無効にすることを確認してください。これは、生成されたサンプルに悪影響を与える可能性があります。