AnimateDiff-motion-adapter-v1-5-2開源模型 - 用文本生成圖像模型輕鬆創建視頻

首頁

Animatediff Motion Adapter V1 5 2

由guoyww開發

AnimateDiff是一種方法，允許利用現有的Stable Diffusion文本生成圖像模型來創建視頻。

文本生成視頻 #文本生成視頻 #運動模塊適配 #Stable Diffusion擴展

下載量 1,153

發布時間 : 11/1/2023

模型概述

通過在凍結的文本生成圖像模型中插入運動模塊層，並在視頻片段上進行訓練以提取運動先驗，實現在圖像幀之間引入連貫的運動。

模型特點

運動模塊插入

在Stable Diffusion UNet中的ResNet和注意力塊之後插入運動模塊層，實現幀間連貫運動

適配現有模型

通過MotionAdapter和UNetMotionModel為現有Stable Diffusion模型提供便捷的運動模塊支持

高質量視頻生成

利用微調的Stable Diffusion模型生成高質量、連貫的視頻內容

模型能力

文本生成視頻

圖像序列生成

運動連貫性控制

使用案例

創意內容生成

自然場景動畫

生成如日落、海浪等自然場景的連貫動畫

示例展示了日落場景的流暢動畫效果

藝術創作

為藝術家提供從文本描述生成動畫的工具

🚀 Diffusers - 文本到視頻生成庫

Diffusers庫中的AnimateDiff方法能夠藉助現有的Stable Diffusion文本到圖像模型來創建視頻。它通過在已凍結的文本到圖像模型中插入運動模塊層，並在視頻片段上進行訓練以提取運動先驗信息，從而實現視頻生成。

✨ 主要特性

運動模塊插入：將運動模塊層插入到Stable Diffusion UNet的ResNet和Attention塊之後，使圖像幀之間產生連貫的運動效果。
便捷使用：引入了MotionAdapter和UNetMotionModel的概念，方便在現有的Stable Diffusion模型中使用這些運動模塊。

📦 安裝指南

文檔未提及安裝步驟，暫不展示。

💻 使用示例

基礎用法

import torch
from diffusers import MotionAdapter, AnimateDiffPipeline, DDIMScheduler
from diffusers.utils import export_to_gif

# Load the motion adapter
adapter = MotionAdapter.from_pretrained("guoyww/animatediff-motion-adapter-v1-5-2")
# load SD 1.5 based finetuned model
model_id = "SG161222/Realistic_Vision_V5.1_noVAE"
pipe = AnimateDiffPipeline.from_pretrained(model_id, motion_adapter=adapter)
scheduler = DDIMScheduler.from_pretrained(
    model_id, subfolder="scheduler", clip_sample=False, timestep_spacing="linspace", steps_offset=1
)
pipe.scheduler = scheduler

# enable memory savings
pipe.enable_vae_slicing()
pipe.enable_model_cpu_offload()

output = pipe(
    prompt=(
        "masterpiece, bestquality, highlydetailed, ultradetailed, sunset, "
        "orange sky, warm lighting, fishing boats, ocean waves seagulls, "
        "rippling water, wharf, silhouette, serene atmosphere, dusk, evening glow, "
        "golden hour, coastal landscape, seaside scenery"
    ),
    negative_prompt="bad quality, worse quality",
    num_frames=16,
    guidance_scale=7.5,
    num_inference_steps=25,
    generator=torch.Generator("cpu").manual_seed(42),
)
frames = output.frames[0]
export_to_gif(frames, "animation.gif")

效果展示

masterpiece, bestquality, sunset.

🔧 技術細節

AnimateDiff通過在凍結的文本到圖像模型中插入運動模塊層，並在視頻片段上進行訓練以提取運動先驗。這些運動模塊被應用於Stable Diffusion UNet的ResNet和Attention塊之後，目的是在圖像幀之間引入連貫的運動。為了支持這些模塊，引入了MotionAdapter和UNetMotionModel的概念，方便與現有的Stable Diffusion模型一起使用。