cogvideoX - I2V - locobotオープンソースモデル - 無料でデプロイして画像を迅速にビデオに変換する機能を実現

ホーム

Cogvideox I2V Locobot

BelGio13によって開発

THUDM/CogVideoX-5b-I2V向けにトレーニングされたLoRAウェイト、画像から動画へのタスク用

オープンソースライセンス:その他 #画像から動画へ #高解像度生成 #動的フレームレート制御

ダウンロード数 21

リリース時間 : 4/18/2025

モデル概要

これはCogVideoX-5b-I2VモデルをベースにトレーニングされたLoRAウェイトで、画像から動画への変換品質の向上に焦点を当て、リアルな動き、滑らかさ、高解像度出力を重視しています。

モデル特徴

高品質動画生成

リアルな動き、滑らかで高解像度の動画出力の生成に特化

LoRAファインチューニング

LoRA技術を使用してベースモデルをファインチューニングし、モデル性能を維持しながらトレーニングコストを削減

動的設定サポート

動的設定(use_dynamic_cfg)を使用して生成効果を最適化することをサポート

モデル能力

画像から動画へ

高品質動画生成

動的動画合成

使用事例

コンテンツ制作

静止画のアニメーション化

単一の静止画像を動画に変換

滑らかでリアルな動的効果を生成

ショート動画制作

単一画像から迅速にショート動画コンテンツを生成

高解像度で動きが自然なショート動画

教育とデモンストレーション

教材作成

教育用図表や説明図を動的デモンストレーションに変換

生き生きと直感的な教育用動画

🚀 CogVideoX LoRA - BelGio13/cogvideoX-I2V-locobot

BelGio13/cogvideoX-I2V-locobotは、画像から動画への生成を行うためのLoRAモデルです。このモデルはTHUDM/CogVideoX-5b-I2Vをベースに訓練されています。

🚀 クイックスタート

このモデルは、画像から動画を生成するためのLoRAモデルです。以下の手順で使用することができます。

✨ 主な機能

THUDM/CogVideoX-5b-I2Vをベースに訓練されたLoRAモデルです。
画像から動画を生成することができます。
CogVideoX Diffusers trainerを使用して訓練されています。

📦 インストール

このモデルを使用するには、まず必要なライブラリをインストールする必要があります。以下のコマンドを実行してください。

pip install diffusers torch

💻 使用例

基本的な使用法

import torch
from diffusers import CogVideoXImageToVideoPipeline
from diffusers.utils import load_image, export_to_video

pipe = CogVideoXImageToVideoPipeline.from_pretrained("THUDM/CogVideoX-5b-I2V", torch_dtype=torch.bfloat16).to("cuda")
pipe.load_lora_weights("BelGio13/cogvideoX-I2V-locobot", weight_name="pytorch_lora_weights.safetensors", adapter_name="cogvideox-i2v-lora")

# The LoRA adapter weights are determined by what was used for training.
# In this case, we assume `--lora_alpha` is 32 and `--rank` is 64.
# It can be made lower or higher from what was used in training to decrease or amplify the effect
# of the LoRA upto a tolerance, beyond which one might notice no effect at all or overflows.
pipe.set_adapters("cogvideox-i2v-lora", [32 / 64])

image = load_image("/path/to/image")
video = pipe(image=image, "", guidance_scale=6, use_dynamic_cfg=True).frames[0]
export_to_video(video, "output.mp4", fps=8)

高度な使用法

より詳細な使用方法や、LoRAの重み付け、マージ、融合については、diffusersでのLoRAの読み込みに関するドキュメントを参照してください。

📚 ドキュメント

モデルの説明

これらは、THUDM/CogVideoX-5b-I2V用のBelGio13/cogvideoX-I2V-locobot LoRAの重みです。これらの重みは、CogVideoX Diffusers trainerを使用して訓練されています。テキストエンコーダのLoRAは有効になっていません。

モデルのダウンロード

*.safetensors LoRAのダウンロードは、Files & versionsタブで行うことができます。

ライセンス

このモデルの使用に際しては、こちらに記載されているライセンス条項に従ってください。

想定される用途と制限

使い方

# TODO: add an example code snippet for running this diffusion pipeline

制限とバイアス

[TODO: provide examples of latent issues and potential remediations]

訓練の詳細

[TODO: describe the data used to train the model]

📄 ライセンス

このモデルの使用に際しては、こちらに記載されているライセンス条項に従ってください。

情報テーブル

| 属性 | 详情 |
|------|------|
| ベースモデル | THUDM/CogVideoX-5b-I2V |
| ライブラリ名 | diffusers |
| ライセンス | other |
| インスタンスプロンプト | Realistic motion, smooth, complete, high resolution |

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル