VidToMeオープンソース動画編集ソリューション - ゼロサンプル操作で、一貫性を向上させメモリも節約！

ホーム

Vidtome

jadechoghariによって開発

拡散モデルに基づくゼロショット動画編集ソリューションで、ビデオフレーム間のセルフアテンショントークンを統合することで時間的一貫性を向上させ、メモリ消費を削減します。

テキスト生成ビデオオープンソースライセンス:MIT #ゼロショット動画編集 #クロスフレームトークン統合 #セルフアテンション最適化

ダウンロード数 15

リリース時間 : 10/7/2024

モデル概要

VidToMeはモデルの微調整を必要としない動画編集技術で、クロスフレームアライメントと冗長トークンの圧縮により調和のとれた動画生成と編集を実現し、スムーズなシーン遷移と一貫性のある出力を保証します。

モデル特徴

ゼロショット編集

モデルの微調整なしで自然言語プロンプトにより直接動画コンテンツを編集できます。

クロスフレームトークン統合

ビデオフレーム間のセルフアテンショントークンを統合することで時間的一貫性を大幅に向上させます。

メモリ最適化

冗長トークンを圧縮してメモリ消費を削減し、長い動画や複雑なシーンの処理に適しています。

モデル能力

動画スタイル変換

プロンプトベースの動画編集

時間的一貫性最適化

使用事例

コンテンツ制作

動画スタイル変換

自然言語プロンプトを使用してオリジナル動画を異なるスタイル（例: 折り紙スタイル）に変換

元のコンテンツ構造を維持しながら芸術的なスタイル変換を実現

映像制作

特殊効果編集

複雑なポストプロダクション処理なしで動画に要素を追加/修正

専門的な動画編集の技術的ハードルを大幅に低減

🚀 VidToMe: ゼロショットビデオ編集のためのビデオトークンマージング

プロンプトだけで即座にビデオを編集できます！🎥

DiffusersによるVidToMeの実装は、拡散ベースのパイプラインで、ゼロショットビデオ編集を可能にします。これは、ビデオフレーム間の自己注意トークンをマージすることで、時間的な一貫性を向上させ、メモリ使用量を削減します。このアプローチにより、モデルを微調整することなく、調和のとれたビデオ生成と編集が可能になります。フレーム間の冗長なトークンを整列させて圧縮することで、VidToMeはスムーズな遷移と一貫したビデオ出力を保証し、従来のビデオ編集方法を上回ります。この手法は、この論文に基づいています。

🚀 クイックスタート

💻 使用例

基本的な使用法

from diffusers import DiffusionPipeline

# load the pretrained model
pipeline = DiffusionPipeline.from_pretrained(
    "jadechoghari/VidToMe", 
    trust_remote_code=True, 
    custom_pipeline="jadechoghari/VidToMe", 
    sd_version="depth", 
    device="cuda", 
    float_precision="fp16"
)

# set prompts for inversion and generation
inversion_prompt = "flamingos standing in the water near a tree."
generation_prompt = {"origami": "rainbow-colored origami flamingos standing in the water near a tree."}

# additional control and parameters
control_type = "none"  # No extra control, use "depth" if needed
negative_prompt = ""

# Run the video-to-image editing pipeline
generated_images = pipeline(
    video_path="path/to/video.mp4",            # add path to the input video
    video_prompt=inversion_prompt,    # inversion prompt
    edit_prompt=generation_prompt,    # edit prompt for generation
    control_type=control_type         # control type (e.g., "none", "depth")
)