Model Selection

Multimodal Diffusion Model

# Multimodal Diffusion Model

Cosmos 1.0 Diffusion 7B Text2World

A multimodal world foundation model based on diffusion architecture developed by NVIDIA, capable of generating high-quality physics-aware videos from text inputs

CogACT is a novel advanced Vision-Language-Action (VLA) architecture derived from Vision-Language Models (VLM), specifically designed for robot manipulation.

Multimodal Fusion

Transformers English

CogACT is a novel advanced Vision-Language-Action (VLA) architecture derived from Vision-Language Models (VLM), specifically designed for robot manipulation.

Multimodal Fusion

Transformers English

An RDT model derived from robotics-diffusion-transformer/rdt-1b, focusing on the field of robotics.

Transformers English

LDM3D is a latent diffusion model capable of generating both images and depth maps from text prompts, supporting 3D content creation

Text-to-Image English

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase