文本生成视频

2025年最佳的 254 个文本生成视频工具

Xclip Base Patch32

X-CLIP是CLIP的扩展版本，用于通用视频语言理解，通过对比学习在(视频，文本)对上训练，适用于视频分类和视频-文本检索等任务。

文本生成视频

Transformers 英语

首个基于DiT的视频生成模型，能够实时生成高质量视频，支持文本转视频和图像+文本转视频两种场景。

文本生成视频英语

Wan2.1 14B VACE GGUF

Wan2.1-VACE-14B模型的GGUF格式版本，主要用于文本到视频的生成任务。

文本生成视频

Animatediff Lightning

极速文本生成视频模型，生成速度比原版AnimateDiff快十倍以上

文本生成视频

V-Express是一个基于音频和面部关键点条件生成的视频生成模型，能够将音频输入转换为动态视频输出。

文本生成视频英语

CogVideoX是源自清影的视频生成模型的开源版本，提供高质量的视频生成能力。

文本生成视频英语

Llava NeXT Video 7B Hf

LLaVA-NeXT-Video是一个开源多模态聊天机器人，通过视频和图像数据混合训练获得优秀的视频理解能力，在VideoMME基准上达到开源模型SOTA水平。

文本生成视频

Transformers 英语

Wan2.1 T2V 14B Diffusers

万2.1是一套全面开放的视频基础模型，旨在突破视频生成的边界，支持中英文文本生成视频、图像生成视频等多种任务。

文本生成视频支持多种语言

Wan2.1 T2V 1.3B Diffusers

万2.1是一套全面开放的视频基础模型，具备顶尖性能、支持消费级GPU、多任务支持、视觉文本生成和高效视频VAE等特点。

文本生成视频支持多种语言

万2.1是一套综合性开源视频基础模型，具备文本生成视频、图像生成视频、视频编辑、文本生成图像及视频生成音频等多任务能力，支持中英双语文本生成。

文本生成视频支持多种语言

Wan2.1 T2V 14B Gguf

基于GGUF格式转换的文本生成视频模型，支持通过ComfyUI-GGUF自定义节点使用

文本生成视频

CogVideoX是源自清影的开源视频生成模型，2B版本是入门级模型，平衡兼容性，运行和二次开发成本低。

文本生成视频英语

AnimateLCM是一种无需个性化视频数据的高效个性化风格视频生成模型，能够仅需4步推理即可生成高质量视频。

文本生成视频

Wan视频的GGUF量化版本是一个文本生成视频的模型，适用于老旧或低端机器，支持通过GGUF文件进行高效推理。

文本生成视频英语

Ltxv 13b 0.9.7 Dev GGUF

基于Lightricks/LTX-Video的13b-0.9.7-dev变体的GGUF量化版本，支持文本生成视频和图像生成视频任务。

文本生成视频英语

Wan2.1 Fun 1.3B Control

Wan2.1-Fun-1.3B是一个文本生成视频的模型，支持多分辨率训练及首尾帧预测。

文本生成视频支持多种语言

Wan2.1 T2V 1.3B

万2.1是一套全面开放的视频基础模型，旨在突破视频生成的边界，支持文本生成视频、图像生成视频等多种任务。

文本生成视频支持多种语言

Clip4clip Webvid150k

基于WebVid数据集子集训练的CLIP4Clip视频-文本检索模型，用于大规模视频-文本检索应用

文本生成视频

Text To Video Ms 1.7b

基于多阶段文本到视频生成扩散模型，输入英文描述文本后返回符合文本描述的视频

文本生成视频

Wan2.1 Fun 14B InP Gguf

阿里巴巴PAI发布的14B参数规模的多模态模型，支持文本生成视频任务

文本生成视频支持多种语言

Zeroscope V2 576w

一款基于Modelscope的无水印视频生成模型，优化16:9画面比例和流畅视频输出

文本生成视频

Cogvideox1.5 5B

CogVideoX 是一个类似于清影的开源视频生成模型，支持高分辨率视频生成

文本生成视频英语

Wan2.1 Fun 14B Control

支持多分辨率训练及首尾帧预测的文生视频模型

文本生成视频支持多种语言

VACE Wan2.1 1.3B Preview

VACE是一款全能视频创作与编辑模型，支持参考视频生成、视频到视频编辑和掩码视频到视频编辑等多种任务

文本生成视频支持多种语言

Wan2.1 VACE 14B

Wan2.1是一套全面且开放的视频基础模型，旨在突破视频生成的边界，支持多种视频生成和编辑任务。

文本生成视频支持多种语言

Llava NeXT Video 7B DPO

LLaVA-Next-Video 是一个开源的多模态对话模型，通过对大语言模型进行多模态指令跟随数据的微调训练而成，支持视频和文本的多模态交互。

文本生成视频

基于Lightricks/LTX-Video模型的GGUF量化版本，支持文本生成视频、图像生成视频和视频生成视频任务

文本生成视频英语

Wan2.1 Fun 14B InP

阿里云PAI团队开发的文本生成视频模型，支持多分辨率训练及首尾帧预测

文本生成视频支持多种语言

Wan2.1 Fun 1.3B InP

Wan2.1-Fun-1.3B是由阿里巴巴PAI团队开发的文本生成视频模型，支持多分辨率训练及首尾帧预测。

文本生成视频支持多种语言

Cosmos Reason1 7B GGUF

Cosmos-Reason1是NVIDIA开发的物理AI模型，能够理解物理常识并通过长链思维推理生成具身决策自然语言。

文本生成视频

Transformers 英语

万2.1版是一个开放且先进的大规模视频生成模型，支持文本生成视频、图像生成视频等多种任务，适配消费级显卡。

文本生成视频支持多种语言

Ltxv 13b 0.9.7 Distilled GGUF

LTX-Video是一个基于文本生成视频的模型，支持从文本或图像生成视频内容。

文本生成视频英语

Hunyuanvideo Gguf

腾讯幻影视频模型的GGUF量化版本，专为ComfyUI设计，用于文本生成视频任务

文本生成视频

Animatediff Motion Lora Tilt Up

动态LoRAs模型，可为动画添加特定类型的运动效果

文本生成视频

MoviiGen 1.1是一款基于Wan2.1微调的电影级视频生成模型，在电影美学和视觉质量上表现卓越。

文本生成视频英语

Wan2.1 Fun 14B Control Gguf

阿里巴巴PAI发布的14B参数规模的多模态模型，支持文本生成视频任务

文本生成视频支持多种语言

Xclip Base Patch16 Zero Shot

X-CLIP是CLIP的极简扩展，用于通用视频语言理解，通过对比方式在(视频，文本)对上训练，适用于零样本、少样本或全监督视频分类以及视频-文本检索等任务。

文本生成视频

Transformers 英语

Cosmos 1.0 Diffusion 7B Text2World

NVIDIA开发的基于扩散架构的多模态世界基础模型，能够根据文本输入生成高质量物理感知视频

文本生成视频

LTX Video Diffusers

基于Diffusers实现的LTX-Video模型，支持从文本或图像生成高质量视频

文本生成视频

阿里巴巴通义实验室开发的开源视频合成代码库，集成了多种先进的视频生成模型

文本生成视频

LTX Video 0.9.1 Diffusers

基于Diffusers格式的LTX-Video模型，支持文本生成视频和图像生成视频功能

文本生成视频

Skyreels V2 T2V 14B 720P

SkyReels V2是一款无限长度电影生成模型，采用自回归扩散强制架构，支持高分辨率视频生成。

文本生成视频

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase