AnimateDiff-motion-adapter-v1-5-2开源模型 - 用文本生成图像模型轻松创建视频

首页

Animatediff Motion Adapter V1 5 2

由 guoyww 开发

AnimateDiff是一种方法，允许利用现有的Stable Diffusion文本生成图像模型来创建视频。

文本生成视频 #文本生成视频 #运动模块适配 #Stable Diffusion扩展

下载量 1,153

发布时间 : 11/1/2023

模型简介

通过在冻结的文本生成图像模型中插入运动模块层，并在视频片段上进行训练以提取运动先验，实现在图像帧之间引入连贯的运动。

模型特点

运动模块插入

在Stable Diffusion UNet中的ResNet和注意力块之后插入运动模块层，实现帧间连贯运动

适配现有模型

通过MotionAdapter和UNetMotionModel为现有Stable Diffusion模型提供便捷的运动模块支持

高质量视频生成

利用微调的Stable Diffusion模型生成高质量、连贯的视频内容

模型能力

文本生成视频

图像序列生成

运动连贯性控制

使用案例

创意内容生成

自然场景动画

生成如日落、海浪等自然场景的连贯动画

示例展示了日落场景的流畅动画效果

艺术创作

为艺术家提供从文本描述生成动画的工具

🚀 Diffusers - 文本到视频生成库

Diffusers库中的AnimateDiff方法能够借助现有的Stable Diffusion文本到图像模型来创建视频。它通过在已冻结的文本到图像模型中插入运动模块层，并在视频片段上进行训练以提取运动先验信息，从而实现视频生成。

✨ 主要特性

运动模块插入：将运动模块层插入到Stable Diffusion UNet的ResNet和Attention块之后，使图像帧之间产生连贯的运动效果。
便捷使用：引入了MotionAdapter和UNetMotionModel的概念，方便在现有的Stable Diffusion模型中使用这些运动模块。

📦 安装指南

文档未提及安装步骤，暂不展示。

💻 使用示例

基础用法

import torch
from diffusers import MotionAdapter, AnimateDiffPipeline, DDIMScheduler
from diffusers.utils import export_to_gif

# Load the motion adapter
adapter = MotionAdapter.from_pretrained("guoyww/animatediff-motion-adapter-v1-5-2")
# load SD 1.5 based finetuned model
model_id = "SG161222/Realistic_Vision_V5.1_noVAE"
pipe = AnimateDiffPipeline.from_pretrained(model_id, motion_adapter=adapter)
scheduler = DDIMScheduler.from_pretrained(
    model_id, subfolder="scheduler", clip_sample=False, timestep_spacing="linspace", steps_offset=1
)
pipe.scheduler = scheduler

# enable memory savings
pipe.enable_vae_slicing()
pipe.enable_model_cpu_offload()

output = pipe(
    prompt=(
        "masterpiece, bestquality, highlydetailed, ultradetailed, sunset, "
        "orange sky, warm lighting, fishing boats, ocean waves seagulls, "
        "rippling water, wharf, silhouette, serene atmosphere, dusk, evening glow, "
        "golden hour, coastal landscape, seaside scenery"
    ),
    negative_prompt="bad quality, worse quality",
    num_frames=16,
    guidance_scale=7.5,
    num_inference_steps=25,
    generator=torch.Generator("cpu").manual_seed(42),
)
frames = output.frames[0]
export_to_gif(frames, "animation.gif")

效果展示

masterpiece, bestquality, sunset.

🔧 技术细节

AnimateDiff通过在冻结的文本到图像模型中插入运动模块层，并在视频片段上进行训练以提取运动先验。这些运动模块被应用于Stable Diffusion UNet的ResNet和Attention块之后，目的是在图像帧之间引入连贯的运动。为了支持这些模块，引入了MotionAdapter和UNetMotionModel的概念，方便与现有的Stable Diffusion模型一起使用。