文本生成視頻

2025年最佳 254 款文本生成視頻工具

Xclip Base Patch32

X-CLIP是CLIP的擴展版本，用於通用視頻語言理解，通過對比學習在(視頻，文本)對上訓練，適用於視頻分類和視頻-文本檢索等任務。

文本生成視頻

Transformers 英語

首個基於DiT的視頻生成模型，能夠即時生成高質量視頻，支持文本轉視頻和圖像+文本轉視頻兩種場景。

文本生成視頻英語

Wan2.1 14B VACE GGUF

Wan2.1-VACE-14B模型的GGUF格式版本，主要用於文本到視頻的生成任務。

文本生成視頻

Animatediff Lightning

極速文本生成視頻模型，生成速度比原版AnimateDiff快十倍以上

文本生成視頻

V-Express是一個基於音頻和麵部關鍵點條件生成的視頻生成模型，能夠將音頻輸入轉換為動態視頻輸出。

文本生成視頻英語

CogVideoX是源自清影的視頻生成模型的開源版本，提供高質量的視頻生成能力。

文本生成視頻英語

Llava NeXT Video 7B Hf

LLaVA-NeXT-Video是一個開源多模態聊天機器人，通過視頻和圖像數據混合訓練獲得優秀的視頻理解能力，在VideoMME基準上達到開源模型SOTA水平。

文本生成視頻

Transformers 英語

Wan2.1 T2V 14B Diffusers

萬2.1是一套全面開放的視頻基礎模型，旨在突破視頻生成的邊界，支持中英文文本生成視頻、圖像生成視頻等多種任務。

文本生成視頻支持多種語言

Wan2.1 T2V 1.3B Diffusers

萬2.1是一套全面開放的視頻基礎模型，具備頂尖性能、支持消費級GPU、多任務支持、視覺文本生成和高效視頻VAE等特點。

文本生成視頻支持多種語言

萬2.1是一套綜合性開源視頻基礎模型，具備文本生成視頻、圖像生成視頻、視頻編輯、文本生成圖像及視頻生成音頻等多任務能力，支持中英雙語文本生成。

文本生成視頻支持多種語言

Wan2.1 T2V 14B Gguf

基於GGUF格式轉換的文本生成視頻模型，支持通過ComfyUI-GGUF自定義節點使用

文本生成視頻

CogVideoX是源自清影的開源視頻生成模型，2B版本是入門級模型，平衡兼容性，運行和二次開發成本低。

文本生成視頻英語

AnimateLCM是一種無需個性化視頻數據的高效個性化風格視頻生成模型，能夠僅需4步推理即可生成高質量視頻。

文本生成視頻

Wan視頻的GGUF量化版本是一個文本生成視頻的模型，適用於老舊或低端機器，支持通過GGUF文件進行高效推理。

文本生成視頻英語

Ltxv 13b 0.9.7 Dev GGUF

基於Lightricks/LTX-Video的13b-0.9.7-dev變體的GGUF量化版本，支持文本生成視頻和圖像生成視頻任務。

文本生成視頻英語

Wan2.1 Fun 1.3B Control

Wan2.1-Fun-1.3B是一個文本生成視頻的模型，支持多分辨率訓練及首尾幀預測。

文本生成視頻支持多種語言

Wan2.1 T2V 1.3B

萬2.1是一套全面開放的視頻基礎模型，旨在突破視頻生成的邊界，支持文本生成視頻、圖像生成視頻等多種任務。

文本生成視頻支持多種語言

Clip4clip Webvid150k

基於WebVid數據集子集訓練的CLIP4Clip視頻-文本檢索模型，用於大規模視頻-文本檢索應用

文本生成視頻

Text To Video Ms 1.7b

基於多階段文本到視頻生成擴散模型，輸入英文描述文本後返回符合文本描述的視頻

文本生成視頻

Wan2.1 Fun 14B InP Gguf

阿里巴巴PAI發佈的14B參數規模的多模態模型，支持文本生成視頻任務

文本生成視頻支持多種語言

Zeroscope V2 576w

一款基於Modelscope的無水印視頻生成模型，優化16:9畫面比例和流暢視頻輸出

文本生成視頻

Cogvideox1.5 5B

CogVideoX 是一個類似於清影的開源視頻生成模型，支持高分辨率視頻生成

文本生成視頻英語

Wan2.1 Fun 14B Control

支持多分辨率訓練及首尾幀預測的文生視頻模型

文本生成視頻支持多種語言

VACE Wan2.1 1.3B Preview

VACE是一款全能視頻創作與編輯模型，支持參考視頻生成、視頻到視頻編輯和掩碼視頻到視頻編輯等多種任務

文本生成視頻支持多種語言

Wan2.1 VACE 14B

Wan2.1是一套全面且開放的視頻基礎模型，旨在突破視頻生成的邊界，支持多種視頻生成和編輯任務。

文本生成視頻支持多種語言

Llava NeXT Video 7B DPO

LLaVA-Next-Video 是一個開源的多模態對話模型，通過對大語言模型進行多模態指令跟隨數據的微調訓練而成，支持視頻和文本的多模態交互。

文本生成視頻

基於Lightricks/LTX-Video模型的GGUF量化版本，支持文本生成視頻、圖像生成視頻和視頻生成視頻任務

文本生成視頻英語

Wan2.1 Fun 14B InP

阿里雲PAI團隊開發的文本生成視頻模型，支持多分辨率訓練及首尾幀預測

文本生成視頻支持多種語言

Wan2.1 Fun 1.3B InP

Wan2.1-Fun-1.3B是由阿里巴巴PAI團隊開發的文本生成視頻模型，支持多分辨率訓練及首尾幀預測。

文本生成視頻支持多種語言

Cosmos Reason1 7B GGUF

Cosmos-Reason1是NVIDIA開發的物理AI模型，能夠理解物理常識並通過長鏈思維推理生成具身決策自然語言。

文本生成視頻

Transformers 英語

萬2.1版是一個開放且先進的大規模視頻生成模型，支持文本生成視頻、圖像生成視頻等多種任務，適配消費級顯卡。

文本生成視頻支持多種語言

Ltxv 13b 0.9.7 Distilled GGUF

LTX-Video是一個基於文本生成視頻的模型，支持從文本或圖像生成視頻內容。

文本生成視頻英語

Hunyuanvideo Gguf

騰訊幻影視頻模型的GGUF量化版本，專為ComfyUI設計，用於文本生成視頻任務

文本生成視頻

Animatediff Motion Lora Tilt Up

動態LoRAs模型，可為動畫添加特定類型的運動效果

文本生成視頻

MoviiGen 1.1是一款基於Wan2.1微調的電影級視頻生成模型，在電影美學和視覺質量上表現卓越。

文本生成視頻英語

Wan2.1 Fun 14B Control Gguf

阿里巴巴PAI發佈的14B參數規模的多模態模型，支持文本生成視頻任務

文本生成視頻支持多種語言

Xclip Base Patch16 Zero Shot

X-CLIP是CLIP的極簡擴展，用於通用視頻語言理解，通過對比方式在(視頻，文本)對上訓練，適用於零樣本、少樣本或全監督視頻分類以及視頻-文本檢索等任務。

文本生成視頻

Transformers 英語

Cosmos 1.0 Diffusion 7B Text2World

NVIDIA開發的基於擴散架構的多模態世界基礎模型，能夠根據文本輸入生成高質量物理感知視頻

文本生成視頻

LTX Video Diffusers

基於Diffusers實現的LTX-Video模型，支持從文本或圖像生成高質量視頻

文本生成視頻

阿里巴巴通義實驗室開發的開源視頻合成代碼庫，集成了多種先進的視頻生成模型

文本生成視頻

LTX Video 0.9.1 Diffusers

基於Diffusers格式的LTX-Video模型，支持文本生成視頻和圖像生成視頻功能

文本生成視頻

Skyreels V2 T2V 14B 720P

SkyReels V2是一款無限長度電影生成模型，採用自迴歸擴散強制架構，支持高分辨率視頻生成。

文本生成視頻

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase