# 多模態擴散模型

Cosmos Predict2 2B Video2World
其他
Cosmos-Predict2是一套高性能的預訓練世界基礎模型,專為物理AI開發而設計,可生成具有物理感知的圖像、視頻和世界狀態。
文本生成視頻
C
nvidia
314
8
Cosmos Predict2 14B Text2Image
其他
Cosmos-Predict2是一系列高性能的預訓練世界基礎模型,專為物理AI開發生成具備物理感知的圖像、視頻和世界狀態而設計。
文本生成圖像
C
nvidia
312
15
Cosmos Predict2 2B Text2Image
其他
Cosmos-Predict2是一系列高性能的預訓練世界基礎模型,專為生成具備物理感知的圖像、視頻和世界狀態而設計,可用於物理AI的開發。
文本生成圖像
C
nvidia
473
19
Cosmos 1.0 Diffusion 7B Text2World
其他
NVIDIA開發的基於擴散架構的多模態世界基礎模型,能夠根據文本輸入生成高質量物理感知視頻
文本生成視頻
C
nvidia
5,011
220
Cogact Small
MIT
CogACT是一種基於視覺語言模型(VLM)衍生的新型高級視覺語言動作(VLA)架構,專為機器人操作設計。
多模態融合 Transformers 英語
C
CogACT
405
4
Cogact Large
MIT
CogACT是一種基於視覺語言模型(VLM)衍生的新型高級視覺語言動作(VLA)架構,專為機器人操作設計。
多模態融合 Transformers 英語
C
CogACT
122
3
Rdt 1b Test
MIT
基於robotics-diffusion-transformer/rdt-1b衍生的RDT模型,專注於機器人技術領域。
文本生成圖像 Transformers 英語
R
Ethan-pooh
0
0
Gligen Inpainting Text Image
Openrail
GLIGEN是一種基於擴散的接地文本到圖像生成模型,能夠根據文本提示、邊界框和參考圖像生成逼真圖像。
文本生成圖像
G
anhnct
108
1
Ldm3d 4c
Openrail
LDM3D是一個能從文本提示生成圖像和深度圖數據的潛在擴散模型,支持3D內容創作
文本生成圖像 英語
L
Intel
1,086
39
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase