Tune - A - VideKO - disney开源模型 - 单样本微调生成迪士尼风格特定动作视频

首页

Tune A VideKO Disney

由 kyujinpy 开发

基于迪士尼风格的文本生成视频模型，通过单样本微调实现特定动作的视频生成

文本生成视频开源协议:Openrail #迪士尼风格视频生成 #单样本微调 #韩语支持

下载量 44

发布时间 : 8/16/2023

模型简介

该模型是基于Tune-A-Video框架开发的文本到视频生成模型，特别针对迪士尼风格进行了优化。它能够根据文本提示生成具有特定动作（如弹吉他）的短视频片段。

模型特点

迪士尼风格视频生成

专门针对现代迪士尼风格优化的视频生成能力

单样本微调

仅需单个样本即可微调模型生成特定动作的视频

动作保持

能够保持训练样本中的基础动作（如弹吉他）同时改变主体

模型能力

文本到视频生成

迪士尼风格渲染

动作保持转换

使用案例

创意内容生成

卡通角色动画

为迪士尼风格角色生成特定动作的短视频

可生成如熊、兔子、狮子等不同角色弹吉他的动画

概念演示

快速生成创意概念的视觉演示

可用于前期创意展示或概念验证

🚀 Tune-A-VideKO-anything

Tune-A-VideKO-anything是一个基于特定基础模型训练的文本到视频生成模型，能依据输入的文本生成具有现代迪士尼风格的视频，可应用于创意视频制作等场景。

🚀 快速开始

克隆代码仓库

git clone https://github.com/showlab/Tune-A-Video.git

运行推理代码

from tuneavideo.pipelines.pipeline_tuneavideo import TuneAVideoPipeline
from tuneavideo.models.unet import UNet3DConditionModel
from tuneavideo.util import save_videos_grid
import torch

pretrained_model_path = "kyujinpy/KO-stable-diffusion-disney"
unet_model_path = "kyujinpy/Tune-A-VideKO-disney"
unet = UNet3DConditionModel.from_pretrained(unet_model_path, subfolder='unet', torch_dtype=torch.float16).to('cuda')
pipe = TuneAVideoPipeline.from_pretrained(pretrained_model_path, unet=unet, torch_dtype=torch.float16).to("cuda")
pipe.enable_xformers_memory_efficient_attention()

prompt = "사자가 기타를 치고 있습니다, 모던한 디즈니 스타일"
video = pipe(prompt, video_length=14, height=512, width=512, num_inference_steps=50, guidance_scale=7.5).videos

save_videos_grid(video, f"./{prompt}.gif")

✨ 主要特性

特定基础模型：基于 kyujinpy/KO-stable-diffusion-disney 模型进行训练。
特定训练提示：使用 “A bear is playing guitar” 进行训练。
多场景生成：能根据不同的测试提示，如兔子、王子、狮子弹吉他等，生成具有现代迪士尼风格的视频。

📦 安装指南

克隆项目代码仓库：

git clone https://github.com/showlab/Tune-A-Video.git

💻 使用示例

基础用法

from tuneavideo.pipelines.pipeline_tuneavideo import TuneAVideoPipeline
from tuneavideo.models.unet import UNet3DConditionModel
from tuneavideo.util import save_videos_grid
import torch

pretrained_model_path = "kyujinpy/KO-stable-diffusion-disney"
unet_model_path = "kyujinpy/Tune-A-VideKO-disney"
unet = UNet3DConditionModel.from_pretrained(unet_model_path, subfolder='unet', torch_dtype=torch.float16).to('cuda')
pipe = TuneAVideoPipeline.from_pretrained(pretrained_model_path, unet=unet, torch_dtype=torch.float16).to("cuda")
pipe.enable_xformers_memory_efficient_attention()

prompt = "사자가 기타를 치고 있습니다, 모던한 디즈니 스타일"
video = pipe(prompt, video_length=14, height=512, width=512, num_inference_steps=50, guidance_scale=7.5).videos

save_videos_grid(video, f"./{prompt}.gif")