多模态扩散模型

# 多模态扩散模型

Cosmos Predict2 2B Video2World

Cosmos-Predict2是一套高性能的预训练世界基础模型，专为物理AI开发而设计，可生成具有物理感知的图像、视频和世界状态。

文本生成视频

Cosmos Predict2 14B Text2Image

Cosmos-Predict2是一系列高性能的预训练世界基础模型，专为物理AI开发生成具备物理感知的图像、视频和世界状态而设计。

文本生成图像

Cosmos Predict2 2B Text2Image

Cosmos-Predict2是一系列高性能的预训练世界基础模型，专为生成具备物理感知的图像、视频和世界状态而设计，可用于物理AI的开发。

文本生成图像

Cosmos 1.0 Diffusion 7B Text2World

NVIDIA开发的基于扩散架构的多模态世界基础模型，能够根据文本输入生成高质量物理感知视频

文本生成视频

CogACT是一种基于视觉语言模型(VLM)衍生的新型高级视觉语言动作(VLA)架构，专为机器人操作设计。

多模态融合

Transformers 英语

CogACT是一种基于视觉语言模型(VLM)衍生的新型高级视觉语言动作(VLA)架构，专为机器人操作设计。

多模态融合

Transformers 英语

基于robotics-diffusion-transformer/rdt-1b衍生的RDT模型，专注于机器人技术领域。

文本生成图像

Transformers 英语

Gligen Inpainting Text Image

GLIGEN是一种基于扩散的接地文本到图像生成模型，能够根据文本提示、边界框和参考图像生成逼真图像。

文本生成图像

LDM3D是一个能从文本提示生成图像和深度图数据的潜在扩散模型，支持3D内容创作

文本生成图像英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase