🚀 VidToMe:用于零样本视频编辑的视频令牌合并
VidToMe 能够让你仅通过一个提示词就可以立即编辑视频!🎥 基于 Diffusers 实现的 VidToMe 是一个基于扩散模型的零样本视频编辑管道,它通过合并视频帧间的自注意力令牌,增强了时间一致性并减少了内存使用。这种方法无需对模型进行微调,就能够实现和谐的视频生成与编辑。通过对齐和压缩帧间的冗余令牌,VidToMe 确保了视频过渡平滑、输出连贯,相较于传统视频编辑方法有显著提升。该方法基于 这篇论文 实现。
🚀 快速开始
安装依赖
确保你已经安装了 diffusers
库,若未安装,可以使用以下命令进行安装:
pip install diffusers
运行代码
以下是使用 VidToMe 进行视频编辑的示例代码:
from diffusers import DiffusionPipeline
pipeline = DiffusionPipeline.from_pretrained(
"jadechoghari/VidToMe",
trust_remote_code=True,
custom_pipeline="jadechoghari/VidToMe",
sd_version="depth",
device="cuda",
float_precision="fp16"
)
inversion_prompt = "flamingos standing in the water near a tree."
generation_prompt = {"origami": "rainbow-colored origami flamingos standing in the water near a tree."}
control_type = "none"
negative_prompt = ""
generated_images = pipeline(
video_path="path/to/video.mp4",
video_prompt=inversion_prompt,
edit_prompt=generation_prompt,
control_type=control_type
)
注意:若需要更多控制,可以创建一个配置文件,并遵循 GitHub 仓库中的说明进行操作。
✨ 主要特性
- 支持零样本视频编辑,内容创作者无需复杂操作即可快速编辑视频。
- 可使用自然语言提示词进行视频转换,降低使用门槛。
- 针对长序列或复杂序列的视频生成进行了内存优化,提高处理效率。
💻 使用示例
基础用法
from diffusers import DiffusionPipeline
pipeline = DiffusionPipeline.from_pretrained(
"jadechoghari/VidToMe",
trust_remote_code=True,
custom_pipeline="jadechoghari/VidToMe",
sd_version="depth",
device="cuda",
float_precision="fp16"
)
inversion_prompt = "flamingos standing in the water near a tree."
generation_prompt = {"origami": "rainbow-colored origami flamingos standing in the water near a tree."}
control_type = "none"
negative_prompt = ""
generated_images = pipeline(
video_path="path/to/video.mp4",
video_prompt=inversion_prompt,
edit_prompt=generation_prompt,
control_type=control_type
)
高级用法
from diffusers import DiffusionPipeline
pipeline = DiffusionPipeline.from_pretrained(
"jadechoghari/VidToMe",
trust_remote_code=True,
custom_pipeline="jadechoghari/VidToMe",
sd_version="depth",
device="cuda",
float_precision="fp16"
)
inversion_prompt = "flamingos standing in the water near a tree."
generation_prompt = {"origami": "rainbow-colored origami flamingos standing in the water near a tree."}
control_type = "depth"
negative_prompt = ""
generated_images = pipeline(
video_path="path/to/video.mp4",
video_prompt=inversion_prompt,
edit_prompt=generation_prompt,
control_type=control_type
)
📄 许可证
本项目采用 MIT 许可证。
模型作者:
- Xirui Li
- Chao Ma
- Xiaokang Yang
- Ming-Hsuan Yang
更多信息请查看 GitHub 仓库。