Cosmos Predict2 2B Video2World
其他
Cosmos-Predict2是一套高性能的预训练世界基础模型,专为物理AI开发而设计,可生成具有物理感知的图像、视频和世界状态。
文本生成视频
C
nvidia
314
8
Cosmos Predict2 14B Text2Image
其他
Cosmos-Predict2是一系列高性能的预训练世界基础模型,专为物理AI开发生成具备物理感知的图像、视频和世界状态而设计。
文本生成图像
C
nvidia
312
15
Cosmos Predict2 2B Text2Image
其他
Cosmos-Predict2是一系列高性能的预训练世界基础模型,专为生成具备物理感知的图像、视频和世界状态而设计,可用于物理AI的开发。
文本生成图像
C
nvidia
473
19
Cosmos 1.0 Diffusion 7B Text2World
其他
NVIDIA开发的基于扩散架构的多模态世界基础模型,能够根据文本输入生成高质量物理感知视频
文本生成视频
C
nvidia
5,011
220
Cogact Small
MIT
CogACT是一种基于视觉语言模型(VLM)衍生的新型高级视觉语言动作(VLA)架构,专为机器人操作设计。
多模态融合
Transformers 英语

C
CogACT
405
4
Cogact Large
MIT
CogACT是一种基于视觉语言模型(VLM)衍生的新型高级视觉语言动作(VLA)架构,专为机器人操作设计。
多模态融合
Transformers 英语

C
CogACT
122
3
Rdt 1b Test
MIT
基于robotics-diffusion-transformer/rdt-1b衍生的RDT模型,专注于机器人技术领域。
文本生成图像
Transformers 英语

R
Ethan-pooh
0
0
Gligen Inpainting Text Image
Openrail
GLIGEN是一种基于扩散的接地文本到图像生成模型,能够根据文本提示、边界框和参考图像生成逼真图像。
文本生成图像
G
anhnct
108
1
Ldm3d 4c
Openrail
LDM3D是一个能从文本提示生成图像和深度图数据的潜在扩散模型,支持3D内容创作
文本生成图像 英语
L
Intel
1,086
39
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98