🚀 Diffusers - 文本到視頻生成庫
Diffusers庫中的AnimateDiff方法能夠藉助現有的Stable Diffusion文本到圖像模型來創建視頻。它通過在已凍結的文本到圖像模型中插入運動模塊層,並在視頻片段上進行訓練以提取運動先驗信息,從而實現視頻生成。
✨ 主要特性
- 運動模塊插入:將運動模塊層插入到Stable Diffusion UNet的ResNet和Attention塊之後,使圖像幀之間產生連貫的運動效果。
- 便捷使用:引入了MotionAdapter和UNetMotionModel的概念,方便在現有的Stable Diffusion模型中使用這些運動模塊。
📦 安裝指南
文檔未提及安裝步驟,暫不展示。
💻 使用示例
基礎用法
import torch
from diffusers import MotionAdapter, AnimateDiffPipeline, DDIMScheduler
from diffusers.utils import export_to_gif
adapter = MotionAdapter.from_pretrained("guoyww/animatediff-motion-adapter-v1-5-2")
model_id = "SG161222/Realistic_Vision_V5.1_noVAE"
pipe = AnimateDiffPipeline.from_pretrained(model_id, motion_adapter=adapter)
scheduler = DDIMScheduler.from_pretrained(
model_id, subfolder="scheduler", clip_sample=False, timestep_spacing="linspace", steps_offset=1
)
pipe.scheduler = scheduler
pipe.enable_vae_slicing()
pipe.enable_model_cpu_offload()
output = pipe(
prompt=(
"masterpiece, bestquality, highlydetailed, ultradetailed, sunset, "
"orange sky, warm lighting, fishing boats, ocean waves seagulls, "
"rippling water, wharf, silhouette, serene atmosphere, dusk, evening glow, "
"golden hour, coastal landscape, seaside scenery"
),
negative_prompt="bad quality, worse quality",
num_frames=16,
guidance_scale=7.5,
num_inference_steps=25,
generator=torch.Generator("cpu").manual_seed(42),
)
frames = output.frames[0]
export_to_gif(frames, "animation.gif")
效果展示
masterpiece, bestquality, sunset.
|
🔧 技術細節
AnimateDiff通過在凍結的文本到圖像模型中插入運動模塊層,並在視頻片段上進行訓練以提取運動先驗。這些運動模塊被應用於Stable Diffusion UNet的ResNet和Attention塊之後,目的是在圖像幀之間引入連貫的運動。為了支持這些模塊,引入了MotionAdapter和UNetMotionModel的概念,方便與現有的Stable Diffusion模型一起使用。
常用提示信息
⚠️ 重要提示
AnimateDiff在微調後的Stable Diffusion模型上效果更好。如果你打算使用可以裁剪樣本的調度器,請確保在調度器中設置 clip_sample=False
來禁用它,因為這可能會對生成的樣本產生不利影響。