Xclip Base Patch32
MIT
X-CLIPはCLIPの拡張版で、汎用ビデオ言語理解のために(ビデオ、テキスト)ペアで対照学習を行い、ビデオ分類やビデオ-テキスト検索などのタスクに適しています。
テキスト生成ビデオ
Transformers 英語

X
microsoft
309.80k
84
LTX Video
その他
DiTベースの初の動画生成モデルで、高品質な動画をリアルタイムに生成可能。テキストから動画、画像+テキストから動画の2つのシナリオに対応。
テキスト生成ビデオ 英語
L
Lightricks
165.42k
1,174
Wan2.1 14B VACE GGUF
Apache-2.0
Wan2.1-VACE-14BモデルのGGUF形式のバージョンで、主にテキストからビデオの生成タスクに使用されます。
テキスト生成ビデオ
W
QuantStack
146.36k
139
Animatediff Lightning
Openrail
超高速テキスト生成動画モデル、生成速度はオリジナルAnimateDiffの10倍以上
テキスト生成ビデオ
A
ByteDance
144.00k
925
V Express
V-Expressは、オーディオと顔のキーポイント条件に基づいて生成されるビデオ生成モデルで、オーディオ入力を動的なビデオ出力に変換できます。
テキスト生成ビデオ 英語
V
tk93
118.36k
85
Cogvideox 5b
その他
CogVideoXは清影に由来する動画生成モデルのオープンソース版で、高品質な動画生成能力を提供します。
テキスト生成ビデオ 英語
C
THUDM
92.32k
611
Llava NeXT Video 7B Hf
LLaVA-NeXT-Videoはオープンソースのマルチモーダルチャットボットで、動画と画像データの混合トレーニングにより優れた動画理解能力を獲得し、VideoMMEベンチマークでオープンソースモデルのSOTAレベルを達成しました。
テキスト生成ビデオ
Transformers 英語

L
llava-hf
65.95k
88
Wan2.1 T2V 14B Diffusers
Apache-2.0
万2.1は、動画生成の境界を突破することを目的とした包括的なオープンな動画基盤モデルで、中英テキストから動画生成、画像から動画生成など様々なタスクをサポートします。
テキスト生成ビデオ 複数言語対応
W
Wan-AI
48.65k
24
Wan2.1 T2V 1.3B Diffusers
Apache-2.0
万2.1は包括的に開放されたビデオ基盤モデルで、トップクラスの性能、コンシューマー向けGPUサポート、マルチタスク対応、視覚テキスト生成、高効率ビデオVAEなどの特徴を備えています。
テキスト生成ビデオ 複数言語対応
W
Wan-AI
45.29k
38
Wan2.1 T2V 14B
Apache-2.0
万2.1は包括的なオープンソース動画基盤モデルで、テキストから動画生成、画像から動画生成、動画編集、テキストから画像生成、動画から音声生成など多様なタスクに対応し、日中バイリンガルのテキスト生成をサポートします。
テキスト生成ビデオ 複数言語対応
W
Wan-AI
44.88k
1,238
Wan2.1 T2V 14B Gguf
Apache-2.0
GGUF形式に変換されたテキスト生成動画モデルで、ComfyUI-GGUFカスタムノードを使用可能
テキスト生成ビデオ
W
city96
42.38k
130
Cogvideox 2b
Apache-2.0
CogVideoXは清影に由来するオープンソースの動画生成モデルで、2Bバージョンは入門モデルとして互換性と実行・二次開発コストのバランスが取れています。
テキスト生成ビデオ 英語
C
THUDM
40.55k
324
Animatelcm
AnimateLCMは個人化された動画データを必要としない効率的な個性化スタイル動画生成モデルで、わずか4ステップの推論で高品質な動画を生成できます。
テキスト生成ビデオ
A
wangfuyun
33.16k
323
Wan Gguf
Apache-2.0
Wan動画のGGUF量子化バージョンはテキストから動画を生成するモデルで、古いまたは低スペックマシンに適しており、GGUFファイルを通じた効率的な推論をサポートします。
テキスト生成ビデオ 英語
W
calcuis
26.46k
66
Ltxv 13b 0.9.7 Dev GGUF
その他
Lightricks/LTX-Videoの13b-0.9.7-devバリアントをGGUF量子化したバージョンで、テキストから動画生成および画像から動画生成タスクをサポートします。
テキスト生成ビデオ 英語
L
wsbagnsv1
25.99k
61
Wan2.1 Fun 1.3B Control
Apache-2.0
Wan2.1-Fun-1.3Bはテキストから動画を生成するモデルで、マルチ解像度トレーニングと先頭フレーム・末尾フレーム予測をサポートしています。
テキスト生成ビデオ 複数言語対応
W
alibaba-pai
22.19k
97
Wan2.1 T2V 1.3B
Apache-2.0
万2.1は包括的にオープンな動画基盤モデルで、動画生成の境界を突破し、テキストから動画生成、画像から動画生成など多様なタスクをサポートします。
テキスト生成ビデオ 複数言語対応
W
Wan-AI
19.89k
319
Clip4clip Webvid150k
WebVidデータセットのサブセットでトレーニングされたCLIP4Clipビデオ-テキスト検索モデル、大規模なビデオ-テキスト検索アプリケーション向け
テキスト生成ビデオ
Transformers

C
Searchium-ai
19.30k
27
Text To Video Ms 1.7b
多段階テキストから動画生成拡散モデルに基づき、英語の記述テキストを入力すると、テキストに合致した動画を返す
テキスト生成ビデオ
T
ali-vilab
14.01k
625
Wan2.1 Fun 14B InP Gguf
Apache-2.0
阿里巴巴PAIがリリースした14Bパラメータ規模のマルチモーダルモデルで、テキストから動画生成タスクをサポート
テキスト生成ビデオ 複数言語対応
W
city96
13.97k
18
Zeroscope V2 576w
Modelscopeベースの透かしなし動画生成モデル、16:9画面比率と滑らかな動画出力を最適化
テキスト生成ビデオ
Z
cerspense
12.59k
476
Cogvideox1.5 5B
その他
CogVideoXは清影に似たオープンソースの動画生成モデルで、高解像度動画生成をサポートしています
テキスト生成ビデオ 英語
C
THUDM
11.12k
36
Wan2.1 Fun 14B Control
Apache-2.0
マルチ解像度トレーニング及び先頭フレームと末尾フレーム予測をサポートするテキストから動画生成モデル
テキスト生成ビデオ 複数言語対応
W
alibaba-pai
10.53k
44
VACE Wan2.1 1.3B Preview
Apache-2.0
VACEは、全能型のビデオ創作と編集モデルで、参照ビデオ生成、ビデオからビデオへの編集、マスクビデオからビデオへの編集などの様々なタスクをサポートします。
テキスト生成ビデオ 複数言語対応
V
ali-vilab
10.05k
101
Wan2.1 VACE 14B
Apache-2.0
Wan2.1は包括的でオープンな動画基盤モデルであり、動画生成の境界を突破し、様々な動画生成と編集タスクをサポートします。
テキスト生成ビデオ 複数言語対応
W
Wan-AI
8,797
176
Llava NeXT Video 7B DPO
LLaVA-Next-Videoはオープンソースのマルチモーダルダイアログモデルで、大規模言語モデルをマルチモーダル指示追従データで微調整しており、ビデオとテキストのマルチモーダルインタラクションをサポートします。
テキスト生成ビデオ
Transformers

L
lmms-lab
8,049
27
Ltxv Gguf
その他
Lightricks/LTX-Videoモデルを基にしたGGUF量子化バージョンで、テキストから動画生成、画像から動画生成、動画から動画生成のタスクをサポート
テキスト生成ビデオ 英語
L
calcuis
7,378
48
Wan2.1 Fun 14B InP
Apache-2.0
阿里雲PAIチームが開発したテキストから動画を生成するモデルで、マルチ解像度トレーニングと先頭・末尾フレーム予測をサポート
テキスト生成ビデオ 複数言語対応
W
alibaba-pai
7,011
40
Wan2.1 Fun 1.3B InP
Apache-2.0
Wan2.1-Fun-1.3BはアリババPAIチームによって開発されたテキストから動画を生成するモデルで、マルチ解像度トレーニングと先頭・末尾フレーム予測をサポートしています。
テキスト生成ビデオ 複数言語対応
W
alibaba-pai
6,753
25
Cosmos Reason1 7B GGUF
その他
Cosmos-Reason1はNVIDIAが開発した物理AIモデルで、物理常識を理解し、長鎖思考推論を通じて身体化された意思決定の自然言語を生成できます。
テキスト生成ビデオ
Transformers 英語

C
unsloth
6,690
1
Wan2.1 T2V 14B
Apache-2.0
万2.1版はオープンで先進的な大規模動画生成モデルで、テキストから動画生成、画像から動画生成など多様なタスクをサポートし、コンシューマー向けGPUに対応しています。
テキスト生成ビデオ 複数言語対応
W
Isi99999
6,470
0
Ltxv 13b 0.9.7 Distilled GGUF
その他
LTX-Videoはテキストから動画を生成するモデルで、テキストや画像から動画コンテンツを生成できます。
テキスト生成ビデオ 英語
L
wsbagnsv1
6,208
19
Hunyuanvideo Gguf
その他
Tencent幻影動画モデルのGGUF量子化バージョン、ComfyUI専用設計、テキストから動画生成タスク用
テキスト生成ビデオ
H
city96
6,142
162
Animatediff Motion Lora Tilt Up
動的LoRAsモデル、アニメーションに特定の種類のモーション効果を追加
テキスト生成ビデオ
A
guoyww
5,936
1
Moviigen1.1
Apache-2.0
MoviiGen 1.1はWan2.1を微調整した映画級ビデオ生成モデルで、映画美学と視覚品質に優れた性能を発揮します。
テキスト生成ビデオ 英語
M
ZuluVision
5,165
47
Wan2.1 Fun 14B Control Gguf
Apache-2.0
阿里巴巴PAIがリリースした14Bパラメータ規模のマルチモーダルモデルで、テキストから動画生成タスクをサポート
テキスト生成ビデオ 複数言語対応
W
city96
5,120
10
Xclip Base Patch16 Zero Shot
MIT
X-CLIPはCLIPのミニマルな拡張で、汎用的な動画と言語の理解のために設計されており、(動画、テキスト)ペアで対照的に訓練され、ゼロショット、少数ショット、または完全教師ありの動画分類や動画-テキスト検索などのタスクに適しています。
テキスト生成ビデオ
Transformers 英語

X
microsoft
5,045
24
Cosmos 1.0 Diffusion 7B Text2World
その他
NVIDIAが開発した拡散アーキテクチャに基づくマルチモーダル世界ファウンデーションモデルで、テキスト入力に基づいて高品質な物理知覚ビデオを生成可能
テキスト生成ビデオ
C
nvidia
5,011
220
LTX Video Diffusers
Diffusersで実装されたLTX-Videoモデルで、テキストや画像から高品質な動画を生成可能
テキスト生成ビデオ
L
a-r-r-o-w
4,519
3
I2vgen Xl
MIT
アリババグループのTongyi Labが開発したオープンソースの動画合成コードライブラリで、複数の先進的な動画生成モデルを統合
テキスト生成ビデオ
I
ali-vilab
4,252
172
LTX Video 0.9.1 Diffusers
Diffusersフォーマットに基づくLTX-Videoモデルで、テキストから動画生成と画像から動画生成機能をサポート
テキスト生成ビデオ
L
a-r-r-o-w
3,951
7
Skyreels V2 T2V 14B 720P
その他
SkyReels V2は無限長の映画生成モデルで、自己回帰拡散強制アーキテクチャを採用し、高解像度動画生成をサポートします。
テキスト生成ビデオ
S
Skywork
3,942
25
- 1
- 2
- 3
- 4
- 5
- 6
- 7