Steamboat Willie 1.3b
模型简介
该模型基于蒸汽船威利动画片段训练,能够生成具有黄金时代动画风格的视频内容,特别适合复古动画风格的文本到视频转换任务。
模型特点
复古动画风格
能够生成具有蒸汽船威利和黄金时代动画特征的复古风格视频内容
LoRA适配
作为LoRA模型,可以灵活适配到不同的基础扩散模型上使用
高质量输出
通过负面提示控制,可避免低质量、畸变等常见问题
模型能力
文本生成视频
风格化视频生成
复古动画风格转换
使用案例
创意内容生成
复古动画短片创作
根据文本描述生成具有黄金时代动画风格的短片
如示例中的东京街头场景和小怪兽场景
风格化广告制作
制作具有复古动画风格的广告或宣传视频
🚀 汽船威利LoRA
本项目的LoRA模型可用于文本到图像和文本到视频的生成,基于特定风格训练,能生成具有“汽船威利风格,黄金时代动画”特色的内容。
🚀 快速开始
安装依赖
pip install git+https://github.com/huggingface/diffusers.git
代码示例
import torch
from diffusers.utils import export_to_video
from diffusers import AutoencoderKLWan, WanPipeline
from diffusers.schedulers.scheduling_unipc_multistep import UniPCMultistepScheduler
model_id = "Wan-AI/Wan2.1-T2V-1.3B-Diffusers"
vae = AutoencoderKLWan.from_pretrained(model_id, subfolder="vae", torch_dtype=torch.float32)
pipe = WanPipeline.from_pretrained(model_id, vae=vae, torch_dtype=torch.bfloat16)
pipe.scheduler = UniPCMultistepScheduler.from_config(
pipe.scheduler.config,
flow_shift=3.0
)
pipe.to("cuda")
pipe.load_lora_weights("benjamin-paine/steamboat-willie-1.3b")
pipe.enable_model_cpu_offload() # for low-vram environments
prompt = "steamboat willie style, golden era animation, an anthropomorphic cat character wearing a hat removes it and performs a courteous bow"
negative_prompt = "色调艳丽,过曝,静态,细节模糊不清,字幕,风格,作品,画作,画面,静止,整体发灰,最差质量,低质量,JPEG压缩残留,丑陋的,残缺的,多余的手指,画得不好的手部,画得不好的脸部,畸形的,毁容的,形态畸形的肢体,手指融合,静止不动的画面,杂乱的背景,三条腿,背景人很多,倒着走"
output = pipe(
prompt=prompt,
negative_prompt=negative_prompt,
height=480,
width=832,
num_frames=81,
guidance_scale=5.0,
num_inference_steps=32
).frames[0]
export_to_video(output, "output.mp4", fps=16)
✨ 主要特性
- 多模态生成:支持文本到图像和文本到视频的生成。
- 特定风格:基于“汽船威利风格,黄金时代动画”进行训练,能生成具有该风格特色的内容。
📦 安装指南
使用以下命令安装所需依赖:
pip install git+https://github.com/huggingface/diffusers.git
💻 使用示例
基础用法
import torch
from diffusers.utils import export_to_video
from diffusers import AutoencoderKLWan, WanPipeline
from diffusers.schedulers.scheduling_unipc_multistep import UniPCMultistepScheduler
model_id = "Wan-AI/Wan2.1-T2V-1.3B-Diffusers"
vae = AutoencoderKLWan.from_pretrained(model_id, subfolder="vae", torch_dtype=torch.float32)
pipe = WanPipeline.from_pretrained(model_id, vae=vae, torch_dtype=torch.bfloat16)
pipe.scheduler = UniPCMultistepScheduler.from_config(
pipe.scheduler.config,
flow_shift=3.0
)
pipe.to("cuda")
pipe.load_lora_weights("benjamin-paine/steamboat-willie-1.3b")
pipe.enable_model_cpu_offload() # for low-vram environments
prompt = "steamboat willie style, golden era animation, an anthropomorphic cat character wearing a hat removes it and performs a courteous bow"
negative_prompt = "色调艳丽,过曝,静态,细节模糊不清,字幕,风格,作品,画作,画面,静止,整体发灰,最差质量,低质量,JPEG压缩残留,丑陋的,残缺的,多余的手指,画得不好的手部,画得不好的脸部,畸形的,毁容的,形态畸形的肢体,手指融合,静止不动的画面,杂乱的背景,三条腿,背景人很多,倒着走"
output = pipe(
prompt=prompt,
negative_prompt=negative_prompt,
height=480,
width=832,
num_frames=81,
guidance_scale=5.0,
num_inference_steps=32
).frames[0]
export_to_video(output, "output.mp4", fps=16)
📚 详细文档
模型描述
该模型在来自《汽船威利号》的剪辑片段上进行训练,按场景分割并使用Qwen2.5-VL-3B-Instruct进行标注。
同时,该模型也适用于Wan2.1-T2V-14。
此外,该模型还托管在CivitAI上。
触发词
该模型使用触发短语“steamboat willie style”进行训练。结合“golden era animation”使用该触发短语能获得最佳效果。
📄 许可证
本项目采用CC0-1.0许可证。
🔗 模型下载
该模型的权重以Safetensors格式提供。 可在文件与版本标签中下载。
🔍 示例展示
示例一
- 输入文本:
steamboat willie style, golden era animation, a stylish woman walks down a Tokyo street
filled with warm glowing neon and animated city signage. She wears a black leather jacket,
a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick.
She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights.
Many pedestrians walk about.
- 负向提示词:
色调艳丽,过曝,静态,细节模糊不清,字幕,风格,作品,画作,画面,静止,整体发灰,最差质量,低质量,JPEG压缩残留,丑陋的,残缺的,多余的手指,画得不好的手部,画得不好的脸部,畸形的,毁容的,形态畸形的肢体,手指融合,静止不动的画面,杂乱的背景,三条腿,背景人很多,倒着走
- 输出结果:点击查看
示例二
- 输入文本:
steamboat willie style, golden era animation, close-up of a short fluffy monster
kneeling beside a melting red candle. the mood is one of wonder and curiosity,
as the monster gazes at the flame with wide eyes and open mouth. Its pose and expression
convey a sense of innocence and playfulness, as if it is exploring the world around it for the first time.
The use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image.
- 负向提示词:
色调艳丽,过曝,静态,细节模糊不清,字幕,风格,作品,画作,画面,静止,整体发灰,最差质量,低质量,JPEG压缩残留,丑陋的,残缺的,多余的手指,画得不好的手部,画得不好的脸部,畸形的,毁容的,形态畸形的肢体,手指融合,静止不动的画面,杂乱的背景,三条腿,背景人很多,倒着走
- 输出结果:点击查看
Xclip Base Patch32
MIT
X-CLIP是CLIP的扩展版本,用于通用视频语言理解,通过对比学习在(视频,文本)对上训练,适用于视频分类和视频-文本检索等任务。
文本生成视频
Transformers 英语

X
microsoft
309.80k
84
LTX Video
其他
首个基于DiT的视频生成模型,能够实时生成高质量视频,支持文本转视频和图像+文本转视频两种场景。
文本生成视频 英语
L
Lightricks
165.42k
1,174
Wan2.1 14B VACE GGUF
Apache-2.0
Wan2.1-VACE-14B模型的GGUF格式版本,主要用于文本到视频的生成任务。
文本生成视频
W
QuantStack
146.36k
139
Animatediff Lightning
Openrail
极速文本生成视频模型,生成速度比原版AnimateDiff快十倍以上
文本生成视频
A
ByteDance
144.00k
925
V Express
V-Express是一个基于音频和面部关键点条件生成的视频生成模型,能够将音频输入转换为动态视频输出。
文本生成视频 英语
V
tk93
118.36k
85
Cogvideox 5b
其他
CogVideoX是源自清影的视频生成模型的开源版本,提供高质量的视频生成能力。
文本生成视频 英语
C
THUDM
92.32k
611
Llava NeXT Video 7B Hf
LLaVA-NeXT-Video是一个开源多模态聊天机器人,通过视频和图像数据混合训练获得优秀的视频理解能力,在VideoMME基准上达到开源模型SOTA水平。
文本生成视频
Transformers 英语

L
llava-hf
65.95k
88
Wan2.1 T2V 14B Diffusers
Apache-2.0
万2.1是一套全面开放的视频基础模型,旨在突破视频生成的边界,支持中英文文本生成视频、图像生成视频等多种任务。
文本生成视频 支持多种语言
W
Wan-AI
48.65k
24
Wan2.1 T2V 1.3B Diffusers
Apache-2.0
万2.1是一套全面开放的视频基础模型,具备顶尖性能、支持消费级GPU、多任务支持、视觉文本生成和高效视频VAE等特点。
文本生成视频 支持多种语言
W
Wan-AI
45.29k
38
Wan2.1 T2V 14B
Apache-2.0
万2.1是一套综合性开源视频基础模型,具备文本生成视频、图像生成视频、视频编辑、文本生成图像及视频生成音频等多任务能力,支持中英双语文本生成。
文本生成视频 支持多种语言
W
Wan-AI
44.88k
1,238
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98