# 多模态扩散模型

Cosmos Predict2 2B Video2World
其他
Cosmos-Predict2是一套高性能的预训练世界基础模型,专为物理AI开发而设计,可生成具有物理感知的图像、视频和世界状态。
文本生成视频
C
nvidia
314
8
Cosmos Predict2 14B Text2Image
其他
Cosmos-Predict2是一系列高性能的预训练世界基础模型,专为物理AI开发生成具备物理感知的图像、视频和世界状态而设计。
文本生成图像
C
nvidia
312
15
Cosmos Predict2 2B Text2Image
其他
Cosmos-Predict2是一系列高性能的预训练世界基础模型,专为生成具备物理感知的图像、视频和世界状态而设计,可用于物理AI的开发。
文本生成图像
C
nvidia
473
19
Cosmos 1.0 Diffusion 7B Text2World
其他
NVIDIA开发的基于扩散架构的多模态世界基础模型,能够根据文本输入生成高质量物理感知视频
文本生成视频
C
nvidia
5,011
220
Cogact Small
MIT
CogACT是一种基于视觉语言模型(VLM)衍生的新型高级视觉语言动作(VLA)架构,专为机器人操作设计。
多模态融合 Transformers 英语
C
CogACT
405
4
Cogact Large
MIT
CogACT是一种基于视觉语言模型(VLM)衍生的新型高级视觉语言动作(VLA)架构,专为机器人操作设计。
多模态融合 Transformers 英语
C
CogACT
122
3
Rdt 1b Test
MIT
基于robotics-diffusion-transformer/rdt-1b衍生的RDT模型,专注于机器人技术领域。
文本生成图像 Transformers 英语
R
Ethan-pooh
0
0
Gligen Inpainting Text Image
Openrail
GLIGEN是一种基于扩散的接地文本到图像生成模型,能够根据文本提示、边界框和参考图像生成逼真图像。
文本生成图像
G
anhnct
108
1
Ldm3d 4c
Openrail
LDM3D是一个能从文本提示生成图像和深度图数据的潜在扩散模型,支持3D内容创作
文本生成图像 英语
L
Intel
1,086
39
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase