VidToMe开源视频编辑方案 - 零样本操作，提升连贯性还省内存！

首页

Vidtome

由 jadechoghari 开发

基于扩散模型的零样本视频编辑方案，通过合并视频帧间的自注意力令牌提升时间连贯性并降低内存消耗。

文本生成视频开源协议:MIT #零样本视频编辑 #跨帧令牌合并 #自注意力优化

下载量 15

发布时间 : 10/7/2024

模型简介

VidToMe是一种无需微调模型的视频编辑技术，通过跨帧对齐和压缩冗余令牌实现和谐的视频生成与编辑，确保画面过渡流畅、输出内容连贯。

模型特点

零样本编辑

无需微调模型即可通过自然语言提示直接编辑视频内容。

跨帧令牌合并

通过合并视频帧间的自注意力令牌显著提升时间连贯性。

内存优化

压缩冗余令牌降低内存消耗，适合处理长视频和复杂场景。

模型能力

视频风格转换

基于提示词的视频编辑

时间连贯性优化

使用案例

内容创作

视频风格转换

通过自然语言提示将原始视频转换为不同风格（如折纸风格）

保持原始内容结构的同时实现艺术风格转换

影视制作

特效编辑

无需复杂后期处理即可添加/修改视频中的元素

显著降低专业视频编辑的技术门槛

🚀 VidToMe：用于零样本视频编辑的视频令牌合并

VidToMe 能够让你仅通过一个提示词就可以立即编辑视频！🎥 基于 Diffusers 实现的 VidToMe 是一个基于扩散模型的零样本视频编辑管道，它通过合并视频帧间的自注意力令牌，增强了时间一致性并减少了内存使用。这种方法无需对模型进行微调，就能够实现和谐的视频生成与编辑。通过对齐和压缩帧间的冗余令牌，VidToMe 确保了视频过渡平滑、输出连贯，相较于传统视频编辑方法有显著提升。该方法基于这篇论文实现。

🚀 快速开始

安装依赖

确保你已经安装了 diffusers 库，若未安装，可以使用以下命令进行安装：

pip install diffusers

运行代码

以下是使用 VidToMe 进行视频编辑的示例代码：

from diffusers import DiffusionPipeline

# 加载预训练模型
pipeline = DiffusionPipeline.from_pretrained(
    "jadechoghari/VidToMe", 
    trust_remote_code=True, 
    custom_pipeline="jadechoghari/VidToMe", 
    sd_version="depth", 
    device="cuda", 
    float_precision="fp16"
)

# 设置反演和生成提示词
inversion_prompt = "flamingos standing in the water near a tree."
generation_prompt = {"origami": "rainbow-colored origami flamingos standing in the water near a tree."}

# 额外的控制和参数
control_type = "none"  # 无额外控制，若需要可使用 "depth"
negative_prompt = ""

# 运行视频到图像的编辑管道
generated_images = pipeline(
    video_path="path/to/video.mp4",            # 添加输入视频的路径
    video_prompt=inversion_prompt,    # 反演提示词
    edit_prompt=generation_prompt,    # 用于生成的编辑提示词
    control_type=control_type         # 控制类型（例如，"none", "depth"）
)

注意：若需要更多控制，可以创建一个配置文件，并遵循 GitHub 仓库中的说明进行操作。

✨ 主要特性

支持零样本视频编辑，内容创作者无需复杂操作即可快速编辑视频。
可使用自然语言提示词进行视频转换，降低使用门槛。
针对长序列或复杂序列的视频生成进行了内存优化，提高处理效率。

💻 使用示例

基础用法

from diffusers import DiffusionPipeline

# 加载预训练模型
pipeline = DiffusionPipeline.from_pretrained(
    "jadechoghari/VidToMe", 
    trust_remote_code=True, 
    custom_pipeline="jadechoghari/VidToMe", 
    sd_version="depth", 
    device="cuda", 
    float_precision="fp16"
)

# 设置反演和生成提示词
inversion_prompt = "flamingos standing in the water near a tree."
generation_prompt = {"origami": "rainbow-colored origami flamingos standing in the water near a tree."}

# 额外的控制和参数
control_type = "none"  # 无额外控制，若需要可使用 "depth"
negative_prompt = ""

# 运行视频到图像的编辑管道
generated_images = pipeline(
    video_path="path/to/video.mp4",            # 添加输入视频的路径
    video_prompt=inversion_prompt,    # 反演提示词
    edit_prompt=generation_prompt,    # 用于生成的编辑提示词
    control_type=control_type         # 控制类型（例如，"none", "depth"）
)

高级用法

# 高级用法可根据具体需求调整参数，例如使用不同的控制类型、提示词等。
# 这里以使用 "depth" 控制类型为例：
from diffusers import DiffusionPipeline

# 加载预训练模型
pipeline = DiffusionPipeline.from_pretrained(
    "jadechoghari/VidToMe", 
    trust_remote_code=True, 
    custom_pipeline="jadechoghari/VidToMe", 
    sd_version="depth", 
    device="cuda", 
    float_precision="fp16"
)

# 设置反演和生成提示词
inversion_prompt = "flamingos standing in the water near a tree."
generation_prompt = {"origami": "rainbow-colored origami flamingos standing in the water near a tree."}

# 额外的控制和参数
control_type = "depth"  # 使用 "depth" 控制类型
negative_prompt = ""

# 运行视频到图像的编辑管道
generated_images = pipeline(
    video_path="path/to/video.mp4",            # 添加输入视频的路径
    video_prompt=inversion_prompt,    # 反演提示词
    edit_prompt=generation_prompt,    # 用于生成的编辑提示词
    control_type=control_type         # 控制类型（例如，"none", "depth"）
)