高分辨率視頻生成

# 高分辨率視頻生成

Cosmos Predict2 2B Text2Image

Cosmos-Predict2是一系列高性能的預訓練世界基礎模型，專為生成具備物理感知的圖像、視頻和世界狀態而設計，可用於物理AI的開發。

文本生成圖像

Wan2.1 T2V 1.3B

萬2.1是一套全面開放的視頻基礎模型，旨在突破視頻生成的邊界，支持文本生成視頻、圖像生成視頻等多種任務。

文本生成視頻支持多種語言

基於THUDM/CogVideoX-5b模型在3dgs-dissolve數據集上微調的文本生成視頻模型，專注於3D物體溶解與火花特效生成

文本生成視頻

Nova D48w1024 Osp480

北京智源研究院開發的非量化自迴歸文本生成視頻模型，能夠根據文本提示生成和編輯視頻

文本生成視頻

Allegro-TI2V是一個開源的文本-圖像生成視頻模型，能夠根據用戶提供的提示詞和輸入圖像生成高質量視頻內容。

文本生成視頻英語

Cogvideox1.5 5B I2V

CogVideoX 是一個開源視頻生成模型，支持從圖像生成視頻，類似於清影平臺。

首個基於DiT的視頻生成模型，能夠即時生成高質量視頻，支持文本轉視頻和圖像+文本轉視頻兩種場景。

文本生成視頻英語

基於CogVideoX-5b的視頻生成模型，能夠根據文本描述生成高質量視頻內容

文本生成視頻英語

Cogvideox Fun 5b InP

基於CogVideoX架構改進的視頻生成工具，支持文本/圖像生成6秒左右、8fps的視頻

文本生成視頻英語

Cogvideox Fun 2b InP

基於CogVideoX架構改進的視頻生成模型，支持文本/圖像轉視頻和多分辨率生成

文本生成視頻英語

Vchitect 2.0 2B

Vchitect-2.0是一個用於擴展視頻擴散模型的並行Transformer模型，專注於文本生成視頻和圖像生成視頻任務。

首個開源的1024x576文本轉視頻模型，基於基礎模型微調而來

文本生成視頻

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase