caT-text-to-video-2.3b開源文本生成視頻模型 - 可平滑過渡支持提示詞插值

首頁

Cat Text To Video 2.3b

由motexture開發

基於條件增強的文本生成視頻模型，通過時序條件變換器擴展生成片段並實現平滑過渡，支持提示詞插值功能

文本生成視頻英語開源協議:Apache-2.0 #時序條件變換 #提示詞插值 #片段平滑過渡

下載量 25

發布時間 : 1/22/2025

模型概述

該模型採用ModelScope文本生成視頻模型的預訓練權重，並通過時序條件變換器進行增強，以擴展生成片段並實現片段間的平滑過渡。同時支持提示詞插值功能，可在片段擴展過程中切換場景。

模型特點

時序條件變換器

通過時序條件變換器增強，能夠擴展生成片段並實現片段間的平滑過渡

提示詞插值

支持在片段擴展過程中切換場景，實現不同場景間的自然過渡

高分辨率生成

支持320x320分辨率的視頻生成

模型能力

文本生成視頻

視頻片段擴展

場景切換過渡

使用案例

創意內容生成

動作場景轉換

將騎自行車的場景平滑過渡到騎摩托車的場景

男子騎自行車 -> 男子騎摩托車

人物動作變化

展示人物從吃漢堡到吃冰淇淋的自然過渡

威爾·史密斯吃漢堡 -> 威爾·史密斯吃冰淇淋

動畫生成

動漫角色表情變化

生成動漫女孩從靜態到大笑的動畫

粉色頭髮的美麗動漫女孩 -> 動漫女孩大笑

屬性	詳情
模型類型	條件增強的文本到視頻生成模型
訓練數據	TempoFunk/webvid - 10M
基礎模型	ali - vilab/text - to - video - ms - 1.7b

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Cat Text To Video 2.3b

模型概述

模型特點

模型能力

使用案例

🚀 caT文本轉視頻

🚀 快速開始

📦 安裝指南

克隆倉庫

示例展示

🔧 技術細節

📄 許可證