df-cpt-mo-di-bear-guitarオープンソースモデル - テキストプロンプトに基づいて現代ディズニースタイルのビデオを生成

ホーム

Df Cpt Mo Di Bear Guitar

Tune-A-Video-libraryによって開発

これはnitrosocke/mo-di-diffusionモデルをベースにしたテキストから動画を生成するモデルで、テキストプロンプトからモダンディズニースタイルの動画コンテンツを生成できます。

テキスト生成ビデオオープンソースライセンス:Openrail #テキストから動画生成 #ディズニースタイル #ワンショットチューニング

ダウンロード数 16

リリース時間 : 6/9/2023

モデル概要

このモデルはTune-A-Video技術を使用してベースの画像拡散モデルをチューニングし、テキストから動画を生成する機能を実現しています。特にモダンディズニースタイルの動的コンテンツ生成に優れています。

モデル特徴

モダンディズニースタイル

モダンディズニーのアートスタイルを持つ動画コンテンツを生成可能

テキストから動画変換

シンプルなテキストプロンプトから連続した動画シーケンスを生成

Tune-A-Video技術ベース

ワンショットチューニングで画像拡散モデルから動画生成モデルへ変換

モデル能力

テキストから動画生成

スタイライズされた動画生成

動的コンテンツ作成

使用事例

クリエイティブコンテンツ生成

アニメキャラクターのパフォーマンス

ディズニースタイルのキャラクターが特定の動作を行う動画を生成

例ではギターを弾くプリンセスのアニメーション効果を展示

コンセプトデモ

クリエイティブなコンセプトを迅速に可視化

オリジナルのトレーニングではギターを弾くクマのアニメーションを展示

アート創作

スタイライズドアニメーション

特定のアートスタイルの短い動画クリップを生成

モダンディズニースタイルのアニメーション出力

🚀 Tune-A-Video - Modern Disney

このモデルは、テキストから動画を生成するためのTune-A-Videoモデルで、Modern Disneyスタイルを持ち、Diffusersライブラリと互換性があります。

🚀 クイックスタート

このモデルはDiffusers互換のチェックポイントです。DiffusionPipelineと共に使用すると、TuneAVideoPipelineのインスタンスを返します。

df-cptは、Tune-A-Video-library/mo-di-bear-guitarのDiffusers互換版であることを示すために使用されます。

ベースモデル: nitrosocke/mo-di-diffusion
学習プロンプト: a bear is playing guitar.

✨ 主な機能

テキストから動画を生成することができます。
Modern Disneyスタイルの動画を生成することができます。

📦 インストール

このモデルは、Diffusersライブラリを使用しています。以下のコマンドでDiffusersをインストールできます。

pip install diffusers

💻 使用例

基本的な使用法

既存のText2Imageチェックポイントを使用してロードする場合：

import torch
from diffusers import TuneAVideoPipeline, DDIMScheduler, UNet3DConditionModel
from diffusers.utils import export_to_video
from PIL import Image

# Use any pretrained Text2Image checkpoint based on stable diffusion
pretrained_model_path = "nitrosocke/mo-di-diffusion"
unet = UNet3DConditionModel.from_pretrained(
    "Tune-A-Video-library/df-cpt-mo-di-bear-guitar", subfolder="unet", torch_dtype=torch.float16
).to("cuda")

pipe = TuneAVideoPipeline.from_pretrained(pretrained_model_path, unet=unet, torch_dtype=torch.float16).to("cuda")

prompt = "A princess playing a guitar, modern disney style"
generator = torch.Generator(device="cuda").manual_seed(42)

video_frames = pipe(prompt, video_length=3, generator=generator, num_inference_steps=50, output_type="np").frames

# Saving to gif.
pil_frames = [Image.fromarray(frame) for frame in video_frames]
duration = len(pil_frames) / 8
pil_frames[0].save(
    "animation.gif",
    save_all=True,
    append_images=pil_frames[1:],  # append rest of the images
    duration=duration * 1000,  # in milliseconds
    loop=0,
)

# Saving to video
video_path = export_to_video(video_frames)

高度な使用法

保存されたTune-A-Videoチェックポイントをロードする場合：

import torch
from diffusers import DiffusionPipeline, DDIMScheduler
from diffusers.utils import export_to_video
from PIL import Image

pipe = DiffusionPipeline.from_pretrained(
    "Tune-A-Video-library/df-cpt-mo-di-bear-guitar", torch_dtype=torch.float16
).to("cuda")

prompt = "A princess playing a guitar, modern disney style"
generator = torch.Generator(device="cuda").manual_seed(42)

video_frames = pipe(prompt, video_length=3, generator=generator, num_inference_steps=50, output_type="np").frames

# Saving to gif.
pil_frames = [Image.fromarray(frame) for frame in video_frames]
duration = len(pil_frames) / 8
pil_frames[0].save(
    "animation.gif",
    save_all=True,
    append_images=pil_frames[1:],  # append rest of the images
    duration=duration * 1000,  # in milliseconds
    loop=0,
)

# Saving to video
video_path = export_to_video(video_frames)