TrackDiffusion_SVD_Stage2開源視頻生成模型 - 以軌跡為條件輕鬆生成視頻

首頁

Trackdiffusion SVD Stage2

由pengxiang開發

TrackDiffusion是一種以目標軌跡為條件輸入的擴散模型，可基於軌跡生成視頻。

視頻處理開源協議:其他 #軌跡條件視頻生成 #動態物體控制 #跨幀一致性

下載量 0

發布時間 : 4/8/2024

模型概述

TrackDiffusion是一種創新的視頻生成框架，通過將目標軌跡作為生成條件，實現了對視頻合成中複雜動態的精細化控制。該方法支持精確調控物體運動軌跡和交互行為，有效解決了物體出現/消失、尺度變化以及跨幀一致性等挑戰。

模型特點

軌跡條件輸入

以目標軌跡作為生成條件，實現對視頻合成的精細化控制

複雜動態處理

有效處理物體出現/消失、尺度變化等複雜動態場景

跨幀一致性

確保生成視頻中物體的跨幀一致性

模型能力

基於軌跡生成視頻

視頻動態控制

物體運動軌跡調控

使用案例

視頻生成

軌跡控制視頻合成

根據輸入的物體運動軌跡生成相應的視頻序列

生成與輸入軌跡匹配的視頻內容

🚀 TrackDiffusion模型卡片

TrackDiffusion是一種以軌跡片段為條件的擴散模型，能夠基於此生成視頻。它為視頻合成中的複雜動態提供了細粒度控制，解決了物體在視頻中出現、消失、尺度變化以及幀間一致性等問題。

🚀 快速開始

請從這個鏈接(https://huggingface.co/pengxiang/trackdiffusion_ytvis)下載模型權重。

✨ 主要特性

TrackDiffusion是一種新穎的視頻生成框架，通過在生成過程中以物體軌跡為條件，實現了對視頻合成中複雜動態的細粒度控制。這種方法允許精確操縱物體軌跡和交互，解決了管理物體外觀、消失、尺度變化以及確保幀間一致性的挑戰。

📦 安裝指南

暫未提供相關安裝步驟。

💻 使用示例

基礎用法

我們提供了整個Unet的權重，你可以在Diffusers管道中替換它，例如：

pretrained_model_path = "stabilityai/stable-video-diffusion-img2vid"
unet = UNetSpatioTemporalConditionModel.from_pretrained("/path/to/unet", torch_dtype=torch.float16,)
pipe = StableVideoDiffusionPipeline.from_pretrained(
    pretrained_model_path, 
    unet=unet,
    torch_dtype=torch.float16,
    variant="fp16",
    low_cpu_mem_usage=True)

📚 詳細文檔

模型描述

用途

直接使用

我們提供了整個Unet的權重，你可以在Diffusers管道中替換它，示例代碼如下：

pretrained_model_path = "stabilityai/stable-video-diffusion-img2vid"
unet = UNetSpatioTemporalConditionModel.from_pretrained("/path/to/unet", torch_dtype=torch.float16,)
pipe = StableVideoDiffusionPipeline.from_pretrained(
    pretrained_model_path, 
    unet=unet,
    torch_dtype=torch.float16,
    variant="fp16",
    low_cpu_mem_usage=True)