Cosmos-Predict2-2B-Text2Image开源模型 - 生成有物理感知图像，助力物理AI开发

首页

Cosmos Predict2 2B Text2Image

由 nvidia 开发

Cosmos-Predict2是一系列高性能的预训练世界基础模型，专为生成具备物理感知的图像、视频和世界状态而设计，可用于物理AI的开发。

文本生成图像开源协议:其他 #物理感知生成 #多模态扩散模型 #世界状态预测

下载量 473

发布时间 : 4/22/2025

模型简介

Cosmos-Predict2能够根据文本、图像或视频输入，生成动态、高质量的图像和视频，是各类世界生成相关应用或研究的基础。

模型特点

高性能预训练

经过高度优化的预训练世界基础模型，能够生成具备物理感知的图像、视频和世界状态。

多模态输入支持

支持文本、图像或视频作为输入，生成动态、高质量的图像和视频。

商业可用

该模型可在NVIDIA开放模型许可协议下进行商业使用。

模型能力

文本到图像生成

视频到世界状态预测

物理感知内容生成

使用案例

物理AI开发

动态场景生成

根据文本描述生成具备物理感知的动态场景图像。

生成高质量、物理合理的场景图像

未来帧预测

根据文本描述和第一帧图像预测未来帧。

生成连贯、物理合理的视频序列

🚀 Cosmos-Predict2：一套基于扩散模型的世界基础模型，提供2B和14B版本

Cosmos-Predict2是一系列高性能的预训练世界基础模型，专为生成具备物理感知的图像、视频和世界状态而设计，可用于物理AI的开发。它能根据文本、图像或视频输入，生成动态、高质量的图像和视频，是各类世界生成相关应用或研究的基础。该模型可在NVIDIA开放模型许可协议下进行商业使用。

🚀 快速开始

你可以参考 Cosmos-Predict2 获取详细信息。

💻 使用示例

基础用法

import torch
from diffusers import Cosmos2TextToImagePipeline

# Available checkpoints: nvidia/Cosmos-Predict2-2B-Text2Image, nvidia/Cosmos-Predict2-14B-Text2Image
model_id = "nvidia/Cosmos-Predict2-2B-Text2Image"
pipe = Cosmos2TextToImagePipeline.from_pretrained(model_id, torch_dtype=torch.bfloat16)
pipe.to("cuda")

prompt = "A close-up shot captures a vibrant yellow scrubber vigorously working on a grimy plate, its bristles moving in circular motions to lift stubborn grease and food residue. The dish, once covered in remnants of a hearty meal, gradually reveals its original glossy surface. Suds form and bubble around the scrubber, creating a satisfying visual of cleanliness in progress. The sound of scrubbing fills the air, accompanied by the gentle clinking of the dish against the sink. As the scrubber continues its task, the dish transforms, gleaming under the bright kitchen lights, symbolizing the triumph of cleanliness over mess."
negative_prompt = "The video captures a series of frames showing ugly scenes, static with no motion, motion blur, over-saturation, shaky footage, low resolution, grainy texture, pixelated images, poorly lit areas, underexposed and overexposed scenes, poor color balance, washed out colors, choppy sequences, jerky movements, low frame rate, artifacting, color banding, unnatural transitions, outdated special effects, fake elements, unconvincing visuals, poorly edited content, jump cuts, visual noise, and flickering. Overall, the video is of poor quality."

output = pipe(
    prompt=prompt, negative_prompt=negative_prompt, generator=torch.Generator().manual_seed(1)
).images[0]
output.save("output.png")

✨ 主要特性

高性能预训练：Cosmos-Predict2是经过高度优化的预训练世界基础模型，能够生成具备物理感知的图像、视频和世界状态。
多模态输入支持：支持文本、图像或视频作为输入，生成动态、高质量的图像和视频。
商业可用：该模型可在NVIDIA开放模型许可协议下进行商业使用。

📦 安装指南

文档未提及具体安装步骤，可参考 Cosmos-Predict2 获取安装相关信息。

📚 详细文档

模型概述

模型链接：Cosmos | 代码 | 官网
模型版本
- Cosmos-Predict2-2B-Text2Image：根据文本描述预测输出图像。
- Cosmos-Predict2-14B-Text2Image：根据文本描述预测输出图像。
- Cosmos-Predict2-2B-Video2World：根据文本描述和第一帧图像预测未来帧。
- Cosmos-Predict2-14B-Video2World：根据文本描述和第一帧图像预测未来帧。
许可证：该模型基于 NVIDIA开放模型许可协议发布。如需自定义许可，请联系 cosmos-license@nvidia.com。
- 重要提示：如果您绕过、禁用、降低效果或规避模型中包含的任何技术限制、安全护栏或相关安全护栏超参数、加密、安全、数字版权管理或认证机制，您在 NVIDIA开放模型许可协议下的权利将自动终止。
部署地域：全球

模型架构

Cosmos-Predict2-2B-Text2Image是一个扩散变压器模型，用于在潜在空间中进行图像去噪。该网络由交错的自注意力、交叉注意力和前馈层组成。交叉注意力层允许模型在去噪过程中以输入文本为条件。在每层之前，应用自适应层归一化来嵌入去噪的时间信息。

输入/输出规格

属性	详情
输入类型	文本
输入格式	字符串
输入参数	一维 (1D)
输入相关其他属性	输入字符串应包含少于300个单词，并应提供用于世界生成的描述性内容，如场景描述、关键对象或角色、背景以及在5秒内要描绘的任何特定动作或运动。
输出类型	图像
输出格式	jpg
输出参数	二维 (2D)
输出相关其他属性	默认情况下，生成的图像分辨率为1280x704像素，RGB颜色。图像内容可视化输入文本描述，在指定时间约束内捕捉关键元素。

我们的AI模型设计和/或优化为在NVIDIA GPU加速系统上运行。通过利用NVIDIA的硬件（如GPU核心）和软件框架（如CUDA库），与仅使用CPU的解决方案相比，该模型可实现更快的训练和推理时间。

软件集成

运行时引擎：Cosmos-Predict2、Diffusers
支持的硬件微架构兼容性：NVIDIA Ampere、NVIDIA Blackwell、NVIDIA Hopper
注意：仅测试了BF16精度。其他精度如FP16或FP32未得到官方支持。

推理

加速引擎：PyTorch、Transformer Engine
操作系统：Linux（我们未在其他操作系统上进行测试。）
系统要求和性能：该模型需要26.02 GB的GPU VRAM。以下表格显示了在不同NVIDIA GPU硬件上单次生成的推理时间： | GPU硬件 | 推理运行时间 | |--------------|----------------------------| | NVIDIA GB200 | 3.39秒 | | NVIDIA B200 | 3.24秒 | | NVIDIA RTX PRO 6000工作站版 | 5.59秒 | | NVIDIA DGX Spark | 24.87秒 | | NVIDIA H200 SXM | 9.02秒 | | NVIDIA H200 NVL | 6.34秒 | | NVIDIA H100 PCIe | 11.12秒 | | NVIDIA H100 NVL | 5.05秒 | | NVIDIA H20 | 11.47秒 | | NVIDIA L40S | 8.9秒 | | NVIDIA RTX 6000 Ada Generation | 11.94秒 |

质量基准

为进行比较评估，我们提供了来自 GenEval 评估框架的基准分数：

方法	总体	单个对象	两个对象	计数	颜色	位置	颜色属性
Stable Diffusion XL	0.55	0.98	0.74	0.39	0.85	0.15	0.23
DALL-E 3	0.67	0.96	0.87	0.47	0.83	0.43	0.45
Flux 1-Dev	0.66	0.98	0.79	0.73	0.77	0.22	0.45
Cosmos-Predict2-2B-Text2Image	0.83	1.00	0.99	0.73	0.89	0.65	0.73
Cosmos-Predict2-14B-Text2Image	0.84	1.00	0.98	0.79	0.90	0.64	0.72

🔧 技术细节

尽管Cosmos-Predict2文本到图像模型在物理AI的世界生成方面有了各种改进，但在世界预测方面仍面临技术和应用限制。特别是，它们难以生成无伪影的高分辨率图像。常见问题包括相机和对象运动不稳定以及交互不精确。模型可能在生成的图像中不准确地表示3D空间或物理定律，导致诸如不现实的交互和不合理的运动等伪影。因此，将这些模型应用于需要模拟基于物理定律的环境或复杂多智能体动力学的应用仍然具有挑战性。

📄 许可证

本模型基于 NVIDIA开放模型许可协议发布。协议主要内容如下：

1. 定义

NVIDIA Cosmos模型：指根据本协议共享的多模态模型。
衍生模型：指对模型的所有 (a) 修改、(b) 基于模型的作品以及 (c) 模型的任何其他衍生作品。输出不是衍生模型。
法律实体：指行动实体以及所有其他控制该实体、受该实体控制或与该实体受共同控制的实体的联合。就本定义而言，“控制” 指 (a) 直接或间接导致该实体的方向或管理的权力，无论是通过合同还是其他方式；(b) 拥有百分之五十 (50%) 或更多的已发行股份；或 (c) 该实体的实益所有权。
模型：指根据本协议共享的机器学习模型、软件、检查点、学习权重、算法、参数、配置文件和文档。
您：指行使本协议授予的权限的个人或法律实体。

2. 使用条件、许可授予、AI伦理和知识产权所有权

使用条件：模型和任何衍生模型受本协议第2节和第3节所述的附加条款的约束，并管理您的使用。如果您对任何实体提起版权或专利诉讼（包括诉讼中的交叉索赔或反诉），声称模型或衍生模型构成直接或间接版权或专利侵权，则本协议授予您的该模型或衍生模型的任何许可将自提起该诉讼之日起终止。如果您绕过、禁用、降低效果或规避模型中包含的任何技术限制、安全护栏或相关安全护栏超参数、加密、安全、数字版权管理或认证机制，您在本协议下的权利将自动终止。NVIDIA可随时更新本协议以遵守法律和监管要求，您同意遵守任何更新的许可或停止复制、使用和分发模型及任何衍生模型。
许可授予：本协议明确授予的权利以您完全遵守本协议的条款为条件。在遵守本协议的条款和条件的前提下，NVIDIA特此授予您永久、全球、非排他、免费、免版税、可撤销（如第2.1节所述）的许可，以公开表演、公开展示、复制、使用、创作衍生作品、制造、让他人制造、销售、提供销售、分发（通过多级分发）和进口模型。
AI伦理：根据本协议使用模型必须符合NVIDIA在 https://www.nvidia.com/en-us/agreements/trustworthy-ai/terms/ 上的可信AI条款。
知识产权所有权：NVIDIA拥有模型和NVIDIA创建的任何模型衍生作品。在NVIDIA对模型或其模型衍生作品的潜在所有权权利的前提下，您是并将是您的模型衍生作品的所有者。NVIDIA对输出不主张所有权权利。您负责输出及其后续使用。除非本协议明确授予，(a) NVIDIA保留与模型相关的所有权利、权益和补救措施，并且 (b) 未通过暗示、禁止反言或其他方式授予您任何其他许可或权利。

3. 再分发

您可以在任何介质中复制和分发模型或其衍生模型的副本，无论是否进行修改，但前提是您满足以下条件：

如果您分发模型，您必须向模型的任何其他接收者提供本协议的副本，并在随附副本的 “通知” 文本文件中包含以下归属声明：“由NVIDIA Corporation根据NVIDIA开放模型许可授权”。
如果您分发或提供NVIDIA Cosmos模型，或包含或使用NVIDIA Cosmos模型的产品或服务（包括AI模型），使用NVIDIA Cosmos模型创建衍生模型，或使用NVIDIA Cosmos模型或其输出来创建、训练、微调或以其他方式改进AI模型，您将在相关网站、用户界面、博客文章、关于页面或产品文档中包含 “基于NVIDIA Cosmos构建”。
您可以在您的修改中添加您自己的版权声明，并可以为您的修改或任何此类衍生模型的整体使用、复制或分发提供额外或不同的许可条款和条件，前提是您对模型的使用、复制和分发符合本协议规定的条件。

4. 商标

本协议未授予使用NVIDIA的商号、商标、服务标记或产品名称的许可，除非在描述模型的来源和复制 “通知” 文本文件的内容时进行合理和惯常使用所需。

5. 保修免责声明

除非适用法律要求或书面同意，NVIDIA按 “现状” 提供模型，不提供任何形式的保证或条件，无论是明示的还是暗示的，包括但不限于所有权、不侵权、适销性或特定用途适用性的任何保证或条件。您独自负责确定使用或再分发模型、衍生模型和输出的适当性，并承担与您行使本协议下的权限相关的任何风险。

6. 责任限制

在任何情况下，无论根据何种法律理论，无论是侵权（包括疏忽）、合同还是其他方式，除非适用法律要求（如故意和重大过失行为）或书面同意，NVIDIA均不对您承担损害赔偿责任，包括因本协议或使用或无法使用模型、衍生模型或输出而产生的任何直接、间接、特殊、偶然或后果性损害（包括但不限于商誉损失、工作停顿、计算机故障或故障或任何和所有其他商业损害或损失），即使NVIDIA已被告知此类损害的可能性。

7. 赔偿

您将赔偿并使NVIDIA免受任何第三方因您使用或分发模型、模型衍生作品或输出而产生的任何索赔。

8. 反馈

NVIDIA感谢您的反馈，您同意NVIDIA可以无限制地使用该反馈，且无需向您支付补偿。

9. 适用法律

本协议在所有方面均受美国法律和特拉华州法律的管辖，不考虑法律冲突原则或《联合国国际货物销售合同公约》。位于加利福尼亚州圣克拉拉县的州和联邦法院对因本协议产生的或与本协议相关的任何争议或索赔具有专属管辖权，双方不可撤销地同意这些法院的个人管辖权和审判地；但任何一方均可在任何司法管辖区申请禁令救济或同等类型的紧急法律救济。

10. 贸易和合规

您同意遵守所有适用的出口、进口、贸易和经济制裁法律和法规，包括但不限于美国出口管理条例和外国资产控制办公室条例。这些法律包括对目的地、最终用户和最终用途的限制。

注意事项

⚠️ 重要提示

如果您绕过、禁用、降低效果或规避模型中包含的任何技术限制、安全护栏或相关安全护栏超参数、加密、安全、数字版权管理或认证机制，您在 NVIDIA开放模型许可协议下的权利将自动终止。

💡 使用建议

NVIDIA认为可信AI是一项共同责任，我们已经制定了政策和实践，以支持广泛的AI应用开发。当根据我们的服务条款下载或使用时，开发者应与其内部模型团队合作，确保该模型满足相关行业和用例的要求，并解决不可预见的产品滥用问题。用户负责模型的输入和输出。用户负责确保在部署前安全集成该模型，包括实施护栏以及其他安全机制。如需了解该模型的伦理考虑的更多详细信息，请参阅下面的可解释性、偏差、安全与保障以及隐私子卡。