animatediff-sparsectrl-rgb開源模型 - 藉助Stable Diffusion輕鬆從文字生成連貫視頻

首頁

Animatediff Sparsectrl Rgb

由guoyww開發

AnimateDiff是一種利用現有Stable Diffusion文生圖模型創建視頻的方法，通過插入運動模塊層實現圖像幀間的連貫運動。

文本生成視頻 #文本生成視頻 #運動模塊控制 #稀疏ControlNet

下載量 166

發布時間 : 7/18/2024

模型概述

該模型通過向凍結的文生圖模型中插入運動模塊層，並在視頻片段上進行訓練以提取運動先驗知識，實現從文本生成連貫視頻的功能。

模型特點

運動模塊插入

在現有Stable Diffusion模型的ResNet和注意力塊後插入運動模塊，實現幀間連貫運動

稀疏ControlNet支持

支持SparseControlNet實現可控的視頻生成，通過稀疏條件控制生成內容

兼容現有模型

可與現有Stable Diffusion文生圖模型配合使用，無需從頭訓練

模型能力

文本到視頻生成

可控視頻生成

圖像動畫化

使用案例

創意內容生成

角色動畫

根據文本描述生成連貫的角色動畫

生成具有自然運動的角色動畫序列

場景動畫

將靜態場景描述轉化為動態視頻

生成帶有動態元素的場景視頻

廣告與營銷

產品展示

生成產品展示動畫

創建具有吸引力的產品動態展示

🚀 擴散器（Diffusers）

AnimateDiff 是一種利用現有的穩定擴散文本到圖像模型來創建視頻的方法，為文本到視頻的生成提供了新的解決方案。

🚀 快速開始

AnimateDiff 是一種能夠藉助現有的穩定擴散（Stable Diffusion）文本到圖像模型來創建視頻的方法。

它通過在凍結的文本到圖像模型中插入運動模塊層，並在視頻片段上對其進行訓練以提取運動先驗，從而實現這一功能。這些運動模塊被應用於穩定擴散 UNet 中的殘差網絡（ResNet）和注意力模塊（Attention）之後，其目的是在圖像幀之間引入連貫的運動。為了支持這些模塊，我們引入了運動適配器（MotionAdapter）和 UNet 運動模型（UNetMotionModel）的概念，它們為在現有的穩定擴散模型中使用這些運動模塊提供了便利的方式。

稀疏控制網絡模型（SparseControlNetModel）是針對 AnimateDiff 實現的控制網絡（ControlNet）。

控制網絡由張呂敏、饒安逸和阿格拉瓦拉（Maneesh Agrawala）在論文為文本到圖像擴散模型添加條件控制中提出。

稀疏控制網絡（SparseCtrl）版本的控制網絡由郭宇偉、楊策源、饒安逸、阿格拉瓦拉（Maneesh Agrawala）、林達華和戴博在論文 SparseCtrl：為文本到視頻擴散模型添加稀疏控制中提出，用於在文本到視頻擴散模型中實現可控生成。

✨ 主要特性

利用現有模型：藉助已有的穩定擴散文本到圖像模型創建視頻，節省訓練成本。
運動模塊：通過插入運動模塊層並訓練提取運動先驗，實現圖像幀間的連貫運動。
稀疏控制網絡：SparseControlNetModel 為 AnimateDiff 提供可控生成能力。

💻 使用示例

基礎用法

以下示例展示瞭如何在現有的穩定擴散文本到圖像模型中使用運動模塊和稀疏控制網絡：

import torch

from diffusers import AnimateDiffSparseControlNetPipeline
from diffusers.models import AutoencoderKL, MotionAdapter, SparseControlNetModel
from diffusers.schedulers import DPMSolverMultistepScheduler
from diffusers.utils import export_to_gif, load_image


model_id = "SG161222/Realistic_Vision_V5.1_noVAE"
motion_adapter_id = "guoyww/animatediff-motion-adapter-v1-5-3"
controlnet_id = "guoyww/animatediff-sparsectrl-rgb"
lora_adapter_id = "guoyww/animatediff-motion-lora-v1-5-3"
vae_id = "stabilityai/sd-vae-ft-mse"
device = "cuda"

motion_adapter = MotionAdapter.from_pretrained(motion_adapter_id, torch_dtype=torch.float16).to(device)
controlnet = SparseControlNetModel.from_pretrained(controlnet_id, torch_dtype=torch.float16).to(device)
vae = AutoencoderKL.from_pretrained(vae_id, torch_dtype=torch.float16).to(device)
scheduler = DPMSolverMultistepScheduler.from_pretrained(
    model_id,
    subfolder="scheduler",
    beta_schedule="linear",
    algorithm_type="dpmsolver++",
    use_karras_sigmas=True,
)
pipe = AnimateDiffSparseControlNetPipeline.from_pretrained(
    model_id,
    motion_adapter=motion_adapter,
    controlnet=controlnet,
    vae=vae,
    scheduler=scheduler,
    torch_dtype=torch.float16,
).to(device)
pipe.load_lora_weights(lora_adapter_id, adapter_name="motion_lora")

image = load_image("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/animatediff-firework.png")

video = pipe(
    prompt="closeup face photo of man in black clothes, night city street, bokeh, fireworks in background",
    negative_prompt="low quality, worst quality",
    num_inference_steps=25,
    conditioning_frames=image,
    controlnet_frame_indices=[0],
    controlnet_conditioning_scale=1.0,
    generator=torch.Generator().manual_seed(42),
).frames[0]
export_to_gif(video, "output.gif")