2025年最佳的 254 个文本生成视频工具

Xclip Base Patch32
MIT
X-CLIP是CLIP的扩展版本,用于通用视频语言理解,通过对比学习在(视频,文本)对上训练,适用于视频分类和视频-文本检索等任务。
文本生成视频 Transformers 英语
X
microsoft
309.80k
84
LTX Video
其他
首个基于DiT的视频生成模型,能够实时生成高质量视频,支持文本转视频和图像+文本转视频两种场景。
文本生成视频 英语
L
Lightricks
165.42k
1,174
Wan2.1 14B VACE GGUF
Apache-2.0
Wan2.1-VACE-14B模型的GGUF格式版本,主要用于文本到视频的生成任务。
文本生成视频
W
QuantStack
146.36k
139
Animatediff Lightning
Openrail
极速文本生成视频模型,生成速度比原版AnimateDiff快十倍以上
文本生成视频
A
ByteDance
144.00k
925
V Express
V-Express是一个基于音频和面部关键点条件生成的视频生成模型,能够将音频输入转换为动态视频输出。
文本生成视频 英语
V
tk93
118.36k
85
Cogvideox 5b
其他
CogVideoX是源自清影的视频生成模型的开源版本,提供高质量的视频生成能力。
文本生成视频 英语
C
THUDM
92.32k
611
Llava NeXT Video 7B Hf
LLaVA-NeXT-Video是一个开源多模态聊天机器人,通过视频和图像数据混合训练获得优秀的视频理解能力,在VideoMME基准上达到开源模型SOTA水平。
文本生成视频 Transformers 英语
L
llava-hf
65.95k
88
Wan2.1 T2V 14B Diffusers
Apache-2.0
万2.1是一套全面开放的视频基础模型,旨在突破视频生成的边界,支持中英文文本生成视频、图像生成视频等多种任务。
文本生成视频 支持多种语言
W
Wan-AI
48.65k
24
Wan2.1 T2V 1.3B Diffusers
Apache-2.0
万2.1是一套全面开放的视频基础模型,具备顶尖性能、支持消费级GPU、多任务支持、视觉文本生成和高效视频VAE等特点。
文本生成视频 支持多种语言
W
Wan-AI
45.29k
38
Wan2.1 T2V 14B
Apache-2.0
万2.1是一套综合性开源视频基础模型,具备文本生成视频、图像生成视频、视频编辑、文本生成图像及视频生成音频等多任务能力,支持中英双语文本生成。
文本生成视频 支持多种语言
W
Wan-AI
44.88k
1,238
Wan2.1 T2V 14B Gguf
Apache-2.0
基于GGUF格式转换的文本生成视频模型,支持通过ComfyUI-GGUF自定义节点使用
文本生成视频
W
city96
42.38k
130
Cogvideox 2b
Apache-2.0
CogVideoX是源自清影的开源视频生成模型,2B版本是入门级模型,平衡兼容性,运行和二次开发成本低。
文本生成视频 英语
C
THUDM
40.55k
324
Animatelcm
AnimateLCM是一种无需个性化视频数据的高效个性化风格视频生成模型,能够仅需4步推理即可生成高质量视频。
文本生成视频
A
wangfuyun
33.16k
323
Wan Gguf
Apache-2.0
Wan视频的GGUF量化版本是一个文本生成视频的模型,适用于老旧或低端机器,支持通过GGUF文件进行高效推理。
文本生成视频 英语
W
calcuis
26.46k
66
Ltxv 13b 0.9.7 Dev GGUF
其他
基于Lightricks/LTX-Video的13b-0.9.7-dev变体的GGUF量化版本,支持文本生成视频和图像生成视频任务。
文本生成视频 英语
L
wsbagnsv1
25.99k
61
Wan2.1 Fun 1.3B Control
Apache-2.0
Wan2.1-Fun-1.3B是一个文本生成视频的模型,支持多分辨率训练及首尾帧预测。
文本生成视频 支持多种语言
W
alibaba-pai
22.19k
97
Wan2.1 T2V 1.3B
Apache-2.0
万2.1是一套全面开放的视频基础模型,旨在突破视频生成的边界,支持文本生成视频、图像生成视频等多种任务。
文本生成视频 支持多种语言
W
Wan-AI
19.89k
319
Clip4clip Webvid150k
基于WebVid数据集子集训练的CLIP4Clip视频-文本检索模型,用于大规模视频-文本检索应用
文本生成视频 Transformers
C
Searchium-ai
19.30k
27
Text To Video Ms 1.7b
基于多阶段文本到视频生成扩散模型,输入英文描述文本后返回符合文本描述的视频
文本生成视频
T
ali-vilab
14.01k
625
Wan2.1 Fun 14B InP Gguf
Apache-2.0
阿里巴巴PAI发布的14B参数规模的多模态模型,支持文本生成视频任务
文本生成视频 支持多种语言
W
city96
13.97k
18
Zeroscope V2 576w
一款基于Modelscope的无水印视频生成模型,优化16:9画面比例和流畅视频输出
文本生成视频
Z
cerspense
12.59k
476
Cogvideox1.5 5B
其他
CogVideoX 是一个类似于清影的开源视频生成模型,支持高分辨率视频生成
文本生成视频 英语
C
THUDM
11.12k
36
Wan2.1 Fun 14B Control
Apache-2.0
支持多分辨率训练及首尾帧预测的文生视频模型
文本生成视频 支持多种语言
W
alibaba-pai
10.53k
44
VACE Wan2.1 1.3B Preview
Apache-2.0
VACE是一款全能视频创作与编辑模型,支持参考视频生成、视频到视频编辑和掩码视频到视频编辑等多种任务
文本生成视频 支持多种语言
V
ali-vilab
10.05k
101
Wan2.1 VACE 14B
Apache-2.0
Wan2.1是一套全面且开放的视频基础模型,旨在突破视频生成的边界,支持多种视频生成和编辑任务。
文本生成视频 支持多种语言
W
Wan-AI
8,797
176
Llava NeXT Video 7B DPO
LLaVA-Next-Video 是一个开源的多模态对话模型,通过对大语言模型进行多模态指令跟随数据的微调训练而成,支持视频和文本的多模态交互。
文本生成视频 Transformers
L
lmms-lab
8,049
27
Ltxv Gguf
其他
基于Lightricks/LTX-Video模型的GGUF量化版本,支持文本生成视频、图像生成视频和视频生成视频任务
文本生成视频 英语
L
calcuis
7,378
48
Wan2.1 Fun 14B InP
Apache-2.0
阿里云PAI团队开发的文本生成视频模型,支持多分辨率训练及首尾帧预测
文本生成视频 支持多种语言
W
alibaba-pai
7,011
40
Wan2.1 Fun 1.3B InP
Apache-2.0
Wan2.1-Fun-1.3B是由阿里巴巴PAI团队开发的文本生成视频模型,支持多分辨率训练及首尾帧预测。
文本生成视频 支持多种语言
W
alibaba-pai
6,753
25
Cosmos Reason1 7B GGUF
其他
Cosmos-Reason1是NVIDIA开发的物理AI模型,能够理解物理常识并通过长链思维推理生成具身决策自然语言。
文本生成视频 Transformers 英语
C
unsloth
6,690
1
Wan2.1 T2V 14B
Apache-2.0
万2.1版是一个开放且先进的大规模视频生成模型,支持文本生成视频、图像生成视频等多种任务,适配消费级显卡。
文本生成视频 支持多种语言
W
Isi99999
6,470
0
Ltxv 13b 0.9.7 Distilled GGUF
其他
LTX-Video是一个基于文本生成视频的模型,支持从文本或图像生成视频内容。
文本生成视频 英语
L
wsbagnsv1
6,208
19
Hunyuanvideo Gguf
其他
腾讯幻影视频模型的GGUF量化版本,专为ComfyUI设计,用于文本生成视频任务
文本生成视频
H
city96
6,142
162
Animatediff Motion Lora Tilt Up
动态LoRAs模型,可为动画添加特定类型的运动效果
文本生成视频
A
guoyww
5,936
1
Moviigen1.1
Apache-2.0
MoviiGen 1.1是一款基于Wan2.1微调的电影级视频生成模型,在电影美学和视觉质量上表现卓越。
文本生成视频 英语
M
ZuluVision
5,165
47
Wan2.1 Fun 14B Control Gguf
Apache-2.0
阿里巴巴PAI发布的14B参数规模的多模态模型,支持文本生成视频任务
文本生成视频 支持多种语言
W
city96
5,120
10
Xclip Base Patch16 Zero Shot
MIT
X-CLIP是CLIP的极简扩展,用于通用视频语言理解,通过对比方式在(视频,文本)对上训练,适用于零样本、少样本或全监督视频分类以及视频-文本检索等任务。
文本生成视频 Transformers 英语
X
microsoft
5,045
24
Cosmos 1.0 Diffusion 7B Text2World
其他
NVIDIA开发的基于扩散架构的多模态世界基础模型,能够根据文本输入生成高质量物理感知视频
文本生成视频
C
nvidia
5,011
220
LTX Video Diffusers
基于Diffusers实现的LTX-Video模型,支持从文本或图像生成高质量视频
文本生成视频
L
a-r-r-o-w
4,519
3
I2vgen Xl
MIT
阿里巴巴通义实验室开发的开源视频合成代码库,集成了多种先进的视频生成模型
文本生成视频
I
ali-vilab
4,252
172
LTX Video 0.9.1 Diffusers
基于Diffusers格式的LTX-Video模型,支持文本生成视频和图像生成视频功能
文本生成视频
L
a-r-r-o-w
3,951
7
Skyreels V2 T2V 14B 720P
其他
SkyReels V2是一款无限长度电影生成模型,采用自回归扩散强制架构,支持高分辨率视频生成。
文本生成视频
S
Skywork
3,942
25
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase