C

Cosmos Predict2 14B Video2World

由 nvidia 开发
Cosmos-Predict2 是一系列高性能的预训练世界基础模型,专为生成具备物理感知的图像、视频和世界状态而设计,可用于物理人工智能的开发。
下载量 232
发布时间 : 4/25/2025

模型简介

基于扩散模型的世界基础模型,能够根据文本、图像或视频输入,生成动态、高质量的图像和视频,是各种世界生成相关应用或研究的基石。

模型特点

高性能预训练
经过精心预训练的世界基础模型,能够生成物理感知的图像、视频和世界状态。
多模态输入支持
支持文本 + 图像、文本 + 视频等多种输入类型,为世界生成提供更多可能性。
商业可用
在NVIDIA开放模型许可协议下,可用于商业用途。
全球部署
支持全球范围内的部署。

模型能力

文本到图像生成
视频到世界状态预测
多模态输入处理
高质量视频生成

使用案例

物理人工智能
动态场景生成
根据文本描述生成动态、高质量的图像和视频,模拟物理世界中的场景。
生成的视频能够捕捉关键元素,并在指定的时间限制内完成动画场景。
世界状态预测
根据输入的第一帧图像和文本描述,预测未来的世界状态。
生成的视频帧能够模拟物理定律和交互。
创意内容生成
动画制作
利用文本和图像输入生成动画片段。
生成5秒的动画剪辑,分辨率为1280x704像素,帧率为16帧/秒。
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase