Pika Dissolve V0
CogVideoX-5bはテキストからビデオを生成する拡散モデルで、物体溶解エフェクトの生成能力を微調整により実現しています。
ダウンロード数 75
リリース時間 : 1/14/2025
モデル概要
このモデルはテキスト記述に基づいて高品質なビデオコンテンツを生成でき、特に物体が徐々に溶解または分解する動的効果の表現に優れています。
モデル特徴
高解像度ビデオ生成
512×768解像度の高品質ビデオを生成可能
精密エフェクト表現
物体溶解、分解などの繊細な動的効果表現に特に優れる
長シーケンス生成
81フレームの長尺ビデオシーケンス生成をサポート
モデル能力
テキストからビデオ生成
エフェクトビデオ制作
動的シーンシミュレーション
使用事例
クリエイティブコンテンツ制作
物体溶解エフェクト
様々な物体が徐々に溶解または分解する動的ビデオを生成
例ではガラスの花瓶、折り鶴などの物体が優雅に溶解する効果を展示
広告エフェクト制作
広告クリエイティブのためのユニークな物体変換エフェクトを制作
アート創作
デジタルアート表現
デジタルアーティスト向けのクリエイティブインスピレーション可視化ツールを提供
🚀 PIKA_DISSOLVE モデル
このモデルは、[THUDM/CogVideoX - 5b](https://huggingface.co/THUDM/CogVideoX - 5b) を [modal - labs/dissolve](https://huggingface.co/datasets/modal - labs/dissolve) データセットでファインチューニングしたものです。テキストからビデオを生成する能力を持ち、様々な物体の溶解シーンを表現できます。
🚀 クイックスタート
このモデルを使用するには、以下の手順に従ってください。まず、必要なライブラリをインポートし、モデルをロードします。その後、プロンプトを設定してビデオを生成します。
from diffusers import CogVideoXTransformer3DModel, DiffusionPipeline
from diffusers.utils import export_to_video
import torch
transformer = CogVideoXTransformer3DModel.from_pretrained(
"sayakpaul/pika-dissolve-v0", torch_dtype=torch.bfloat16
)
pipeline = DiffusionPipeline.from_pretrained(
"THUDM/CogVideoX-5b", transformer=transformer, torch_dtype=torch.bfloat16
).to("cuda")
prompt = """
PIKA_DISSOLVE A slender glass vase, brimming with tiny white pebbles, stands centered on a polished ebony dais. Without warning, the glass begins to dissolve from the edges inward. Wisps of translucent dust swirl upward in an elegant spiral, illuminating each pebble as they drop onto the dais. The gently drifting dust eventually settles, leaving only the scattered stones and faint traces of shimmering powder on the stage.
"""
negative_prompt = "inconsistent motion, blurry motion, worse quality, degenerate outputs, deformed outputs"
video = pipeline(
prompt=prompt,
negative_prompt=negative_prompt,
num_frames=81,
height=512,
width=768,
num_inference_steps=50
).frames[0]
export_to_video(video, "output_vase.mp4", fps=25)
✨ 主な機能
- テキストからビデオ生成:指定したテキストに基づいて、物体が溶解するビデオを生成できます。
- 多様なシーン表現:雪玉、ティーカップ、木のマスク、ガラスの花瓶など、様々な物体の溶解シーンを表現できます。
📦 インストール
このモデルを使用するには、diffusers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install diffusers
💻 使用例
基本的な使用法
以下は、ティーカップが溶解するシーンを生成する例です。
# 上記のクイックスタートのコードを参照
高度な使用法
複数のプロンプトを使用して、異なるシーンを生成することができます。
# 各プロンプトを設定
prompts = [
"PIKA_DISSOLVE A meticulously detailed, tea cup, sits centrally on a dark brown circular pedestal. The cup, seemingly made of clay, begins to dissolve from the bottom up. The disintegration process is rapid but not explosive, with a cloud of fine, light tan dust forming and rising in a swirling, almost ethereal column that expands outwards before slowly descending. The dust particles are individually visible as they float, and the overall effect is one of delicate disintegration rather than shattering. Finally, only the empty pedestal and the intricately patterned marble floor remain.",
"PIKA_DISSOLVE Resting quietly atop an ancient stone altar, a delicately carved wooden mask starts to crumble from its outer edges. The intricate patterns crack and give way, releasing a fine, smoke-like plume of mahogany-hued particles that dance upwards, then disperse gradually into the hushed atmosphere. As the dust descends, the once captivating mask is reduced to an outline on the weathered altar."
]
for prompt in prompts:
video = pipeline(
prompt=prompt,
negative_prompt=negative_prompt,
num_frames=81,
height=512,
width=768,
num_inference_steps=50
).frames[0]
# 各ビデオを保存
video_name = prompt[:20].replace(" ", "_") + ".mp4"
export_to_video(video, video_name, fps=25)
📚 ドキュメント
- ベースモデル:THUDM/CogVideoX - 5b
- データセット:modal - labs/dissolve
- ライブラリ名:diffusers
- ライセンス:[other](https://huggingface.co/THUDM/CogVideoX - 5b/blob/main/LICENSE)
ウィジェット出力例
入力テキスト | 出力ビデオ |
---|---|
PIKA_DISSOLVE A meticulously detailed, tea cup, sits centrally on a dark brown circular pedestal. The cup, seemingly made of clay, begins to dissolve from the bottom up. The disintegration process is rapid but not explosive, with a cloud of fine, light tan dust forming and rising in a swirling, almost ethereal column that expands outwards before slowly descending. The dust particles are individually visible as they float, and the overall effect is one of delicate disintegration rather than shattering. Finally, only the empty pedestal and the intricately patterned marble floor remain. | output_cup.mp4 |
PIKA_DISSOLVE Resting quietly atop an ancient stone altar, a delicately carved wooden mask starts to crumble from its outer edges. The intricate patterns crack and give way, releasing a fine, smoke - like plume of mahogany - hued particles that dance upwards, then disperse gradually into the hushed atmosphere. As the dust descends, the once captivating mask is reduced to an outline on the weathered altar. | output_altar.mp4 |
PIKA_DISSOLVE A slender glass vase, brimming with tiny white pebbles, stands centered on a polished ebony dais. Without warning, the glass begins to dissolve from the edges inward. Wisps of translucent dust swirl upward in an elegant spiral, illuminating each pebble as they drop onto the dais. The gently drifting dust eventually settles, leaving only the scattered stones and faint traces of shimmering powder on the stage. | output_vase.mp4 |
PIKA_DISSOLVE On a narrow marble ledge, a gracefully folded paper crane rests, its surface marked by delicate ink lines. It starts to fragment from the tail feathers outward, releasing a cloud of feather - light pulp fibers. Suspended for a moment in a magical swirl, the fibers drift back down, cloaking the ledge in a near - transparent veil of white. Then the ledge stands empty, the crane’s faint silhouette lingering in memory. | output_marble.mp4 |
📄 ライセンス
このモデルは、[other](https://huggingface.co/THUDM/CogVideoX - 5b/blob/main/LICENSE) ライセンスの下で提供されています。詳細はリンク先を参照してください。
Xclip Base Patch32
MIT
X-CLIPはCLIPの拡張版で、汎用ビデオ言語理解のために(ビデオ、テキスト)ペアで対照学習を行い、ビデオ分類やビデオ-テキスト検索などのタスクに適しています。
テキスト生成ビデオ
Transformers 英語

X
microsoft
309.80k
84
LTX Video
その他
DiTベースの初の動画生成モデルで、高品質な動画をリアルタイムに生成可能。テキストから動画、画像+テキストから動画の2つのシナリオに対応。
テキスト生成ビデオ 英語
L
Lightricks
165.42k
1,174
Wan2.1 14B VACE GGUF
Apache-2.0
Wan2.1-VACE-14BモデルのGGUF形式のバージョンで、主にテキストからビデオの生成タスクに使用されます。
テキスト生成ビデオ
W
QuantStack
146.36k
139
Animatediff Lightning
Openrail
超高速テキスト生成動画モデル、生成速度はオリジナルAnimateDiffの10倍以上
テキスト生成ビデオ
A
ByteDance
144.00k
925
V Express
V-Expressは、オーディオと顔のキーポイント条件に基づいて生成されるビデオ生成モデルで、オーディオ入力を動的なビデオ出力に変換できます。
テキスト生成ビデオ 英語
V
tk93
118.36k
85
Cogvideox 5b
その他
CogVideoXは清影に由来する動画生成モデルのオープンソース版で、高品質な動画生成能力を提供します。
テキスト生成ビデオ 英語
C
THUDM
92.32k
611
Llava NeXT Video 7B Hf
LLaVA-NeXT-Videoはオープンソースのマルチモーダルチャットボットで、動画と画像データの混合トレーニングにより優れた動画理解能力を獲得し、VideoMMEベンチマークでオープンソースモデルのSOTAレベルを達成しました。
テキスト生成ビデオ
Transformers 英語

L
llava-hf
65.95k
88
Wan2.1 T2V 14B Diffusers
Apache-2.0
万2.1は、動画生成の境界を突破することを目的とした包括的なオープンな動画基盤モデルで、中英テキストから動画生成、画像から動画生成など様々なタスクをサポートします。
テキスト生成ビデオ 複数言語対応
W
Wan-AI
48.65k
24
Wan2.1 T2V 1.3B Diffusers
Apache-2.0
万2.1は包括的に開放されたビデオ基盤モデルで、トップクラスの性能、コンシューマー向けGPUサポート、マルチタスク対応、視覚テキスト生成、高効率ビデオVAEなどの特徴を備えています。
テキスト生成ビデオ 複数言語対応
W
Wan-AI
45.29k
38
Wan2.1 T2V 14B
Apache-2.0
万2.1は包括的なオープンソース動画基盤モデルで、テキストから動画生成、画像から動画生成、動画編集、テキストから画像生成、動画から音声生成など多様なタスクに対応し、日中バイリンガルのテキスト生成をサポートします。
テキスト生成ビデオ 複数言語対応
W
Wan-AI
44.88k
1,238
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98