VidXTend開源視頻擴展模型 - 免費部署為動畫增加視頻時長

首頁

Vidxtend

由benjamin-paine開發

VidXTend是StreamingT2V第二階段精簡封裝的視頻擴展流程，用於將16幀256x256像素動畫每次擴展8幀（8fps下擴展1秒時長）

視頻處理開源協議:MIT #視頻幀擴展 #動態視頻生成 #8fps優化

下載量 53

發布時間 : 4/8/2024

模型概述

基於StreamingT2V研究的視頻擴展模型，專注於從已有視頻片段生成連貫的後續幀序列

模型特點

時序一致性保持

能夠生成與輸入視頻保持時序一致性的擴展幀

高效擴展

每次可擴展8幀視頻（8fps下相當於1秒時長）

靈活輸入

支持256x256分辨率的16幀輸入視頻擴展

模型能力

視頻幀擴展

基於文本引導的視頻生成

時序一致性視頻合成

使用案例

視頻製作

短視頻擴展

為短視頻自動生成後續內容

保持原始視頻風格和內容的連貫擴展

動畫製作

基於初始動畫片段自動生成後續幀

減少動畫製作工作量

🚀 流式文本到視頻擴展模型VidXTend

本倉庫包含了 StreamingT2V 第二階段的精簡獨立管道，名為 "VidXTend"。該模型主要用於每次將 16 幀、分辨率為 256px x 256px 的動畫擴展 8 幀（在 8fps 幀率下為 1 秒）。

引用信息

@article{henschel2024streamingt2v,
  title={StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text},
  author={Henschel, Roberto and Khachatryan, Levon and Hayrapetyan, Daniil and Poghosyan, Hayk and Tadevosyan, Vahram and Wang, Zhangyang and Navasardyan, Shant and Shi, Humphrey},
  journal={arXiv preprint arXiv:2403.14773},
  year={2024}
}

代碼倉庫

https://github.com/Picsart-AI-Research/StreamingT2V

🚀 快速開始

✨ 主要特性

專門用於擴展 16 幀、256px x 256px 動畫，每次擴展 8 幀。
提供命令行工具和 Python 接口，方便使用。

📦 安裝指南

首先，將 VidXTend 包安裝到你的 Python 環境中。如果你要為 VidXTend 創建一個新環境，請確保指定支持 CUDA 的 torch 版本，否則模型將僅在 CPU 上運行。

pip install git+https://github.com/painebenjamin/vidxtend.git

💻 使用示例

命令行使用

安裝包時會同時安裝命令行工具 vidxtend。

Usage: vidxtend [OPTIONS] VIDEO PROMPT

  在視頻文件上運行 VidXtend，將生成的幀連接到視頻末尾。

Options:
  -fps, --frame-rate INTEGER      視頻幀率。默認為輸入視頻的幀率。
  -s, --seconds FLOAT             要添加到視頻中的總秒數。將此數字乘以幀率以確定生成的新幀總數。  [default: 1.0]
  -np, --negative-prompt TEXT     擴散過程的負提示詞。
  -cfg, --guidance-scale FLOAT    擴散過程的引導比例。  [default: 7.5]
  -ns, --num-inference-steps INTEGER
                                  擴散步驟數。  [default: 50]
  -r, --seed INTEGER              隨機種子。
  -m, --model TEXT                HuggingFace 模型名稱。
  -nh, --no-half                  不使用半精度。
  -no, --no-offload               不將模型卸載到 CPU 以保留 GPU 內存。
  -ns, --no-slicing               不使用 VAE 切片。
  -g, --gpu-id INTEGER            要使用的 GPU ID。
  -sf, --model-single-file        下載並使用單個文件而不是目錄。
  -cf, --config-file TEXT         使用單文件模型選項時要使用的配置文件。接受路徑或與單文件在同一目錄中的文件名。如果未提供，將從模型選項中傳遞的存儲庫下載。  [default: config.json]
  -mf, --model-filename TEXT      使用單文件模型選項時要下載的模型文件。  [default: vidxtend.safetensors]
  -rs, --remote-subfolder TEXT    使用單文件模型選項時要從中下載的遠程子文件夾。
  -cd, --cache-dir DIRECTORY      下載的緩存目錄。默認使用 huggingface 緩存。
  -o, --output FILE               輸出文件。  [default: output.mp4]
  -f, --fit [actual|cover|contain|stretch]
                                  圖像適配模式。  [default: cover]
  -a, --anchor [top-left|top-center|top-right|center-left|center-center|center-right|bottom-left|bottom-center|bottom-right]
                                  圖像錨點。  [default: top-left]
  --help                          顯示此消息並退出。

Python 使用

你可以創建管道，自動從本倉庫拉取權重，有以下兩種方式：

基礎用法

作為獨立模型：

from vidxtend import VidXTendPipeline
pipeline = VidXTendPipeline.from_pretrained(
  "benjamin-paine/vidxtend",
  torch_dtype=torch.float16,
  variant="fp16",
)

高級用法

作為單個文件：

from vidxtend import VidXTendPipeline
pipeline = VidXTendPipeline.from_single_file(
  "benjamin-paine/vidxtend",
  torch_dtype=torch.float16,
  variant="fp16",
)

使用以下方法提高性能：

pipeline.enable_model_cpu_offload()
pipeline.enable_vae_slicing()
pipeline.set_use_memory_efficient_attention_xformers()

使用示例如下：

# 假設 images 是一個 PIL 圖像列表

new_frames = pipeline(
    prompt=prompt,
    negative_prompt=None, # 可選地使用負提示詞
    image=images[-8:], # 使用視頻的最後 8 幀
    input_frames_conditioning=images[:1], # 使用視頻的第一幀
    eta=1.0,
    guidance_scale=7.5,
    output_type="pil"
).frames[8:] # 從輸出中移除前 8 幀，因為它們被用作最後 8 幀的引導