Xclip Base Patch32
MIT
X-CLIP是CLIP的擴展版本,用於通用視頻語言理解,通過對比學習在(視頻,文本)對上訓練,適用於視頻分類和視頻-文本檢索等任務。
文本生成視頻
Transformers 英語

X
microsoft
309.80k
84
LTX Video
其他
首個基於DiT的視頻生成模型,能夠即時生成高質量視頻,支持文本轉視頻和圖像+文本轉視頻兩種場景。
文本生成視頻 英語
L
Lightricks
165.42k
1,174
Wan2.1 14B VACE GGUF
Apache-2.0
Wan2.1-VACE-14B模型的GGUF格式版本,主要用於文本到視頻的生成任務。
文本生成視頻
W
QuantStack
146.36k
139
Animatediff Lightning
Openrail
極速文本生成視頻模型,生成速度比原版AnimateDiff快十倍以上
文本生成視頻
A
ByteDance
144.00k
925
V Express
V-Express是一個基於音頻和麵部關鍵點條件生成的視頻生成模型,能夠將音頻輸入轉換為動態視頻輸出。
文本生成視頻 英語
V
tk93
118.36k
85
Cogvideox 5b
其他
CogVideoX是源自清影的視頻生成模型的開源版本,提供高質量的視頻生成能力。
文本生成視頻 英語
C
THUDM
92.32k
611
Llava NeXT Video 7B Hf
LLaVA-NeXT-Video是一個開源多模態聊天機器人,通過視頻和圖像數據混合訓練獲得優秀的視頻理解能力,在VideoMME基準上達到開源模型SOTA水平。
文本生成視頻
Transformers 英語

L
llava-hf
65.95k
88
Wan2.1 T2V 14B Diffusers
Apache-2.0
萬2.1是一套全面開放的視頻基礎模型,旨在突破視頻生成的邊界,支持中英文文本生成視頻、圖像生成視頻等多種任務。
文本生成視頻 支持多種語言
W
Wan-AI
48.65k
24
Wan2.1 T2V 1.3B Diffusers
Apache-2.0
萬2.1是一套全面開放的視頻基礎模型,具備頂尖性能、支持消費級GPU、多任務支持、視覺文本生成和高效視頻VAE等特點。
文本生成視頻 支持多種語言
W
Wan-AI
45.29k
38
Wan2.1 T2V 14B
Apache-2.0
萬2.1是一套綜合性開源視頻基礎模型,具備文本生成視頻、圖像生成視頻、視頻編輯、文本生成圖像及視頻生成音頻等多任務能力,支持中英雙語文本生成。
文本生成視頻 支持多種語言
W
Wan-AI
44.88k
1,238
Wan2.1 T2V 14B Gguf
Apache-2.0
基於GGUF格式轉換的文本生成視頻模型,支持通過ComfyUI-GGUF自定義節點使用
文本生成視頻
W
city96
42.38k
130
Cogvideox 2b
Apache-2.0
CogVideoX是源自清影的開源視頻生成模型,2B版本是入門級模型,平衡兼容性,運行和二次開發成本低。
文本生成視頻 英語
C
THUDM
40.55k
324
Animatelcm
AnimateLCM是一種無需個性化視頻數據的高效個性化風格視頻生成模型,能夠僅需4步推理即可生成高質量視頻。
文本生成視頻
A
wangfuyun
33.16k
323
Wan Gguf
Apache-2.0
Wan視頻的GGUF量化版本是一個文本生成視頻的模型,適用於老舊或低端機器,支持通過GGUF文件進行高效推理。
文本生成視頻 英語
W
calcuis
26.46k
66
Ltxv 13b 0.9.7 Dev GGUF
其他
基於Lightricks/LTX-Video的13b-0.9.7-dev變體的GGUF量化版本,支持文本生成視頻和圖像生成視頻任務。
文本生成視頻 英語
L
wsbagnsv1
25.99k
61
Wan2.1 Fun 1.3B Control
Apache-2.0
Wan2.1-Fun-1.3B是一個文本生成視頻的模型,支持多分辨率訓練及首尾幀預測。
文本生成視頻 支持多種語言
W
alibaba-pai
22.19k
97
Wan2.1 T2V 1.3B
Apache-2.0
萬2.1是一套全面開放的視頻基礎模型,旨在突破視頻生成的邊界,支持文本生成視頻、圖像生成視頻等多種任務。
文本生成視頻 支持多種語言
W
Wan-AI
19.89k
319
Clip4clip Webvid150k
基於WebVid數據集子集訓練的CLIP4Clip視頻-文本檢索模型,用於大規模視頻-文本檢索應用
文本生成視頻
Transformers

C
Searchium-ai
19.30k
27
Text To Video Ms 1.7b
基於多階段文本到視頻生成擴散模型,輸入英文描述文本後返回符合文本描述的視頻
文本生成視頻
T
ali-vilab
14.01k
625
Wan2.1 Fun 14B InP Gguf
Apache-2.0
阿里巴巴PAI發佈的14B參數規模的多模態模型,支持文本生成視頻任務
文本生成視頻 支持多種語言
W
city96
13.97k
18
Zeroscope V2 576w
一款基於Modelscope的無水印視頻生成模型,優化16:9畫面比例和流暢視頻輸出
文本生成視頻
Z
cerspense
12.59k
476
Cogvideox1.5 5B
其他
CogVideoX 是一個類似於清影的開源視頻生成模型,支持高分辨率視頻生成
文本生成視頻 英語
C
THUDM
11.12k
36
Wan2.1 Fun 14B Control
Apache-2.0
支持多分辨率訓練及首尾幀預測的文生視頻模型
文本生成視頻 支持多種語言
W
alibaba-pai
10.53k
44
VACE Wan2.1 1.3B Preview
Apache-2.0
VACE是一款全能視頻創作與編輯模型,支持參考視頻生成、視頻到視頻編輯和掩碼視頻到視頻編輯等多種任務
文本生成視頻 支持多種語言
V
ali-vilab
10.05k
101
Wan2.1 VACE 14B
Apache-2.0
Wan2.1是一套全面且開放的視頻基礎模型,旨在突破視頻生成的邊界,支持多種視頻生成和編輯任務。
文本生成視頻 支持多種語言
W
Wan-AI
8,797
176
Llava NeXT Video 7B DPO
LLaVA-Next-Video 是一個開源的多模態對話模型,通過對大語言模型進行多模態指令跟隨數據的微調訓練而成,支持視頻和文本的多模態交互。
文本生成視頻
Transformers

L
lmms-lab
8,049
27
Ltxv Gguf
其他
基於Lightricks/LTX-Video模型的GGUF量化版本,支持文本生成視頻、圖像生成視頻和視頻生成視頻任務
文本生成視頻 英語
L
calcuis
7,378
48
Wan2.1 Fun 14B InP
Apache-2.0
阿里雲PAI團隊開發的文本生成視頻模型,支持多分辨率訓練及首尾幀預測
文本生成視頻 支持多種語言
W
alibaba-pai
7,011
40
Wan2.1 Fun 1.3B InP
Apache-2.0
Wan2.1-Fun-1.3B是由阿里巴巴PAI團隊開發的文本生成視頻模型,支持多分辨率訓練及首尾幀預測。
文本生成視頻 支持多種語言
W
alibaba-pai
6,753
25
Cosmos Reason1 7B GGUF
其他
Cosmos-Reason1是NVIDIA開發的物理AI模型,能夠理解物理常識並通過長鏈思維推理生成具身決策自然語言。
文本生成視頻
Transformers 英語

C
unsloth
6,690
1
Wan2.1 T2V 14B
Apache-2.0
萬2.1版是一個開放且先進的大規模視頻生成模型,支持文本生成視頻、圖像生成視頻等多種任務,適配消費級顯卡。
文本生成視頻 支持多種語言
W
Isi99999
6,470
0
Ltxv 13b 0.9.7 Distilled GGUF
其他
LTX-Video是一個基於文本生成視頻的模型,支持從文本或圖像生成視頻內容。
文本生成視頻 英語
L
wsbagnsv1
6,208
19
Hunyuanvideo Gguf
其他
騰訊幻影視頻模型的GGUF量化版本,專為ComfyUI設計,用於文本生成視頻任務
文本生成視頻
H
city96
6,142
162
Animatediff Motion Lora Tilt Up
動態LoRAs模型,可為動畫添加特定類型的運動效果
文本生成視頻
A
guoyww
5,936
1
Moviigen1.1
Apache-2.0
MoviiGen 1.1是一款基於Wan2.1微調的電影級視頻生成模型,在電影美學和視覺質量上表現卓越。
文本生成視頻 英語
M
ZuluVision
5,165
47
Wan2.1 Fun 14B Control Gguf
Apache-2.0
阿里巴巴PAI發佈的14B參數規模的多模態模型,支持文本生成視頻任務
文本生成視頻 支持多種語言
W
city96
5,120
10
Xclip Base Patch16 Zero Shot
MIT
X-CLIP是CLIP的極簡擴展,用於通用視頻語言理解,通過對比方式在(視頻,文本)對上訓練,適用於零樣本、少樣本或全監督視頻分類以及視頻-文本檢索等任務。
文本生成視頻
Transformers 英語

X
microsoft
5,045
24
Cosmos 1.0 Diffusion 7B Text2World
其他
NVIDIA開發的基於擴散架構的多模態世界基礎模型,能夠根據文本輸入生成高質量物理感知視頻
文本生成視頻
C
nvidia
5,011
220
LTX Video Diffusers
基於Diffusers實現的LTX-Video模型,支持從文本或圖像生成高質量視頻
文本生成視頻
L
a-r-r-o-w
4,519
3
I2vgen Xl
MIT
阿里巴巴通義實驗室開發的開源視頻合成代碼庫,集成了多種先進的視頻生成模型
文本生成視頻
I
ali-vilab
4,252
172
LTX Video 0.9.1 Diffusers
基於Diffusers格式的LTX-Video模型,支持文本生成視頻和圖像生成視頻功能
文本生成視頻
L
a-r-r-o-w
3,951
7
Skyreels V2 T2V 14B 720P
其他
SkyReels V2是一款無限長度電影生成模型,採用自迴歸擴散強制架構,支持高分辨率視頻生成。
文本生成視頻
S
Skywork
3,942
25
- 1
- 2
- 3
- 4
- 5
- 6
- 7