Cosmos-Predict2-14B-Text2Image开源模型 - 生成物理感知图像、视频及世界状态

首页

Cosmos Predict2 14B Text2Image

由 nvidia 开发

Cosmos-Predict2是一系列高性能的预训练世界基础模型，专为物理AI开发生成具备物理感知的图像、视频和世界状态而设计。

文本生成图像开源协议:其他 #物理感知生成 #多模态扩散模型 #高分辨率视频预测

下载量 312

发布时间 : 4/22/2025

模型简介

基于扩散的世界基础模型，能够根据文本、图像或视频输入，生成动态、高质量的图像和视频，可作为各种世界生成相关应用或研究的构建模块。

模型特点

物理感知生成

专为物理AI设计，生成具备物理感知的图像和视频，能模拟真实世界中的物理交互。

高质量输出

生成动态、高质量的图像和视频，默认分辨率为1280x704像素。

多模态输入支持

支持文本、图像或视频作为输入条件，灵活适应不同应用场景。

商业用途许可

在NVIDIA开放模型许可证下可用于商业用途，并可自由创建和分发衍生模型。

模型能力

文本到图像生成

视频预测

物理场景模拟

多模态理解

使用案例

创意内容生成

广告创意生成

根据产品描述自动生成高质量的广告图像。

生成符合物理规律的产品展示图像

游戏开发

游戏场景生成

根据文本描述生成游戏中的物理场景。

生成具有物理交互能力的游戏环境

影视预制作

分镜生成

根据剧本描述生成影视分镜画面。

生成具有动态效果的分镜图像

🚀 Cosmos-Predict2：一套基于扩散模型的世界基础模型，提供2B和14B版本

Cosmos-Predict2是一系列高性能的预训练世界基础模型，专为物理AI开发生成具备物理感知的图像、视频和世界状态而设计。它能根据文本、图像或视频输入，生成动态、高质量的图像和视频，可作为各种世界生成相关应用或研究的基石。

Cosmos | 代码 | 官网

🚀 快速开始

模型概述

描述

Cosmos-Predict2：这是一系列高性能的预训练世界基础模型，专为物理AI开发生成具备物理感知的图像、视频和世界状态而设计。

Cosmos-Predict2扩散模型是一组基于扩散的世界基础模型，能够根据文本、图像或视频输入，生成动态、高质量的图像和视频。它可以作为各种世界生成相关应用或研究的构建模块。这些模型在NVIDIA开放模型许可协议下可用于商业用途。

模型开发者：NVIDIA

模型版本

Cosmos-Predict2基于扩散的模型家族包括以下模型：

Cosmos-Predict2-2B-Text2Image
- 根据文本描述，预测输出图像。
Cosmos-Predict2-14B-Text2Image
- 根据文本描述，预测输出图像。
Cosmos-Predict2-2B-Video2World
- 根据文本描述和作为第一帧的图像，预测未来帧。
Cosmos-Predict2-14B-Video2World
- 根据文本描述和作为第一帧的图像，预测未来帧。

许可证

该模型根据 NVIDIA开放模型许可证发布。如需定制许可证，请联系 cosmos-license@nvidia.com。

在NVIDIA开放模型许可证下，NVIDIA确认：

模型可用于商业用途。
您可以自由创建和分发衍生模型。
NVIDIA不主张对使用模型或衍生模型生成的任何输出拥有所有权。

⚠️ 重要提示

如果您绕过、禁用、降低模型中包含的任何技术限制、安全护栏或相关安全护栏超参数、加密、安全、数字版权管理或认证机制的有效性，您在 NVIDIA开放模型许可协议下的权利将自动终止。

部署地域

全球

模型架构

Cosmos-Predict2-14B-Text2Image是一个用于在潜在空间进行图像去噪的扩散变压器模型。该网络由交错的自注意力、交叉注意力和前馈层作为构建块组成。交叉注意力层允许模型在整个去噪过程中以输入文本为条件。在每一层之前，应用自适应层归一化来嵌入去噪的时间信息。

输入/输出规格

属性	详情
输入类型	文本
输入格式	字符串
输入参数	一维（1D）
输入相关其他属性	输入字符串应包含少于300个单词，并应提供用于世界生成的描述性内容，例如场景描述、关键对象或角色、背景以及要在5秒内描绘的任何特定动作或运动。
输出类型	图像
输出格式	jpg
输出参数	二维（2D）
输出相关其他属性	默认情况下，生成的图像分辨率为1280x704像素，RGB颜色。图像内容可视化输入文本描述，在指定的时间限制内捕捉关键元素。

我们的AI模型设计和/或优化为在NVIDIA GPU加速系统上运行。通过利用NVIDIA的硬件（例如GPU核心）和软件框架（例如CUDA库），与仅使用CPU的解决方案相比，该模型实现了更快的训练和推理时间。

软件集成

运行时引擎：

import torch
from diffusers import Cosmos2TextToImagePipeline

# 可用的检查点：nvidia/Cosmos-Predict2-2B-Text2Image, nvidia/Cosmos-Predict2-14B-Text2Image
model_id = "nvidia/Cosmos-Predict2-14B-Text2Image"
pipe = Cosmos2TextToImagePipeline.from_pretrained(model_id, torch_dtype=torch.bfloat16)
pipe.to("cuda")

prompt = "A close-up shot captures a vibrant yellow scrubber vigorously working on a grimy plate, its bristles moving in circular motions to lift stubborn grease and food residue. The dish, once covered in remnants of a hearty meal, gradually reveals its original glossy surface. Suds form and bubble around the scrubber, creating a satisfying visual of cleanliness in progress. The sound of scrubbing fills the air, accompanied by the gentle clinking of the dish against the sink. As the scrubber continues its task, the dish transforms, gleaming under the bright kitchen lights, symbolizing the triumph of cleanliness over mess."
negative_prompt = "The video captures a series of frames showing ugly scenes, static with no motion, motion blur, over-saturation, shaky footage, low resolution, grainy texture, pixelated images, poorly lit areas, underexposed and overexposed scenes, poor color balance, washed out colors, choppy sequences, jerky movements, low frame rate, artifacting, color banding, unnatural transitions, outdated special effects, fake elements, unconvincing visuals, poorly edited content, jump cuts, visual noise, and flickering. Overall, the video is of poor quality."

output = pipe(
    prompt=prompt, negative_prompt=negative_prompt, generator=torch.Generator().manual_seed(1)
).images[0]
output.save("output.png")

支持的硬件微架构兼容性：

NVIDIA Ampere
NVIDIA Blackwell
NVIDIA Hopper

⚠️ 重要提示

仅测试了BF16精度。其他精度（如FP16或FP32）未得到官方支持。

推理

加速引擎：PyTorch，Transformer Engine

操作系统：

Linux（我们未在其他操作系统上进行测试。）

系统要求和性能：该模型需要48.93 GB的GPU VRAM。以下表格显示了在不同NVIDIA GPU硬件上单次生成的推理时间：

GPU硬件	推理运行时间
NVIDIA GB200	8.5秒
NVIDIA B200	8.68秒
NVIDIA RTX PRO 6000工作站版	24.16秒
NVIDIA DGX Spark	138.94秒
NVIDIA H200 SXM	15.96秒
NVIDIA H200 NVL	16.95秒
NVIDIA H100 PCIe	23.83秒
NVIDIA H100 NVL	23.97秒
NVIDIA H20	59.59秒
NVIDIA L40S	（内存不足）
NVIDIA RTX 6000 Ada Generation	167.86秒

质量基准：为了进行比较评估，我们提供了来自 GenEval 评估框架的基准分数。

方法	总体	单个对象	两个对象	计数	颜色	位置	颜色属性
Stable Diffusion XL	0.55	0.98	0.74	0.39	0.85	0.15	0.23
DALL-E 3	0.67	0.96	0.87	0.47	0.83	0.43	0.45
Flux 1-Dev	0.66	0.98	0.79	0.73	0.77	0.22	0.45
Cosmos-Predict2-2B-Text2Image	0.83	1.00	0.99	0.73	0.89	0.65	0.73
Cosmos-Predict2-14B-Text2Image	0.84	1.00	0.98	0.79	0.90	0.64	0.72

💻 使用示例

基础用法

import torch
from diffusers import Cosmos2TextToImagePipeline

# 可用的检查点：nvidia/Cosmos-Predict2-2B-Text2Image, nvidia/Cosmos-Predict2-14B-Text2Image
model_id = "nvidia/Cosmos-Predict2-14B-Text2Image"
pipe = Cosmos2TextToImagePipeline.from_pretrained(model_id, torch_dtype=torch.bfloat16)
pipe.to("cuda")

prompt = "A close-up shot captures a vibrant yellow scrubber vigorously working on a grimy plate, its bristles moving in circular motions to lift stubborn grease and food residue. The dish, once covered in remnants of a hearty meal, gradually reveals its original glossy surface. Suds form and bubble around the scrubber, creating a satisfying visual of cleanliness in progress. The sound of scrubbing fills the air, accompanied by the gentle clinking of the dish against the sink. As the scrubber continues its task, the dish transforms, gleaming under the bright kitchen lights, symbolizing the triumph of cleanliness over mess."
negative_prompt = "The video captures a series of frames showing ugly scenes, static with no motion, motion blur, over-saturation, shaky footage, low resolution, grainy texture, pixelated images, poorly lit areas, underexposed and overexposed scenes, poor color balance, washed out colors, choppy sequences, jerky movements, low frame rate, artifacting, color banding, unnatural transitions, outdated special effects, fake elements, unconvincing visuals, poorly edited content, jump cuts, visual noise, and flickering. Overall, the video is of poor quality."

output = pipe(
    prompt=prompt, negative_prompt=negative_prompt, generator=torch.Generator().manual_seed(1)
).images[0]
output.save("output.png")

详细文档

详情请参阅 Cosmos-Predict2。

局限性

尽管Cosmos-Predict2文本到图像模型在物理AI的世界生成方面有了各种改进，但在世界预测方面仍面临技术和应用上的限制。特别是，它们难以生成无伪影的高分辨率图像。常见问题包括相机和对象运动不稳定，以及交互不精确。这些模型可能在生成的图像中不准确地表示3D空间或物理定律，导致出现不真实的交互和不合理的运动等伪影。因此，将这些模型应用于需要模拟基于物理定律的环境或复杂多智能体动力学的应用仍然具有挑战性。

伦理考量

NVIDIA认为可信AI是一项共同责任，我们已经制定了政策和实践，以支持各种AI应用的开发。当开发者按照我们的服务条款下载或使用该模型时，应与内部模型团队合作，确保该模型满足相关行业和用例的要求，并解决产品意外滥用的问题。

用户对模型的输入和输出负责。用户在部署前有责任确保该模型的安全集成，包括实施护栏以及其他安全机制。

有关该模型伦理考量的更多详细信息，请参阅以下可解释性、偏差、安全与保障以及隐私的子卡片。

📄 许可证

本模型遵循 NVIDIA开放模型许可证发布。完整的许可协议内容如下：

NVIDIA开放模型许可协议

版本发布日期：2025年4月30日

本NVIDIA开放模型许可协议（以下简称“协议”）是您所代表的法律实体（若未指明实体，则指您本人）与NVIDIA Corporation及其附属公司（以下简称“NVIDIA”）之间的法律协议，规范您在本协议下使用NVIDIA向您提供的模型的行为。NVIDIA和您各自为“一方”，合称为“双方”。

根据本协议发布的NVIDIA模型旨在被允许使用，并促进人工智能技术的进一步发展。在遵守本协议条款的前提下，NVIDIA确认：

模型可用于商业用途。
您可以自由创建和分发衍生模型。
NVIDIA不主张对使用模型或衍生模型生成的任何输出拥有所有权。

通过使用、复制、修改、分发、执行或展示模型或衍生模型的任何部分或元素，或以其他方式接受本协议的条款，您同意受本协议的约束。

1. 定义

以下定义适用于本协议： 1.1. “NVIDIA Cosmos模型”指根据本协议共享的多模态模型。 1.2. “衍生模型”指所有（a）对模型的修改，（b）基于模型的作品，以及（c）模型的任何其他衍生作品。输出不属于衍生模型。 1.3. “法律实体”指行动实体以及所有对该实体具有控制权、受该实体控制或与该实体处于共同控制之下的其他实体的联合体。就本定义而言，“控制”指（a）直接或间接导致该实体的经营方向或管理的权力，无论是通过合同还是其他方式；（b）拥有该实体已发行股份的百分之五十（50%）或以上；或（c）对该实体的实益所有权。 1.4. “模型”指根据本协议共享的机器学习模型、软件、检查点、学习到的权重、算法、参数、配置文件和文档。 1.5. “您”或“您的”指行使本协议授予的权限的个人或法律实体。

2. 使用条件、许可授予、人工智能伦理和知识产权所有权

2.1. 使用条件。模型和任何衍生模型受本协议第2节和第3节所述的附加条款约束，并规范您的使用行为。如果您对任何实体提起版权或专利诉讼（包括在诉讼中的交叉索赔或反诉），声称模型或衍生模型构成直接或间接的版权或专利侵权，则本协议授予您的关于该模型或衍生模型的任何许可将自提起该诉讼之日起终止。如果您绕过、禁用、降低模型中包含的任何技术限制、安全护栏或相关安全护栏超参数、加密、安全、数字版权管理或认证机制的有效性，您在本协议下的权利将自动终止。NVIDIA可随时更新本协议以遵守法律和监管要求，您同意遵守任何更新后的许可，否则停止复制、使用和分发模型及任何衍生模型。 2.2. 许可授予。本协议授予的权利明确以您完全遵守本协议的条款为条件。在遵守本协议的条款和条件的前提下，NVIDIA特此授予您永久的、全球范围的、非排他的、免费的、免版税的、可撤销的（如第2.1节所述）许可，允许您公开执行、公开展示、复制、使用、创作衍生作品、制造、委托制造、销售、要约销售、分发（通过多级分发）和进口模型。 2.3. 人工智能伦理。在本协议下使用模型必须符合NVIDIA在 https://www.nvidia.com/en-us/agreements/trustworthy-ai/terms/ 上规定的可信人工智能条款。 2.4. NVIDIA拥有模型以及NVIDIA创建的任何模型衍生作品的所有权。在NVIDIA对模型或其模型衍生作品的底层所有权权利的前提下，您是并将继续是您的模型衍生作品的所有者。NVIDIA不主张对输出拥有所有权。您对输出及其后续使用负责。除非本协议明确授予，（a）NVIDIA保留与模型相关的所有权利、权益和救济措施，（b）不会通过暗示、禁止反言或其他方式向您授予任何其他许可或权利。

3. 再分发

您可以在任何介质中复制和分发模型或其衍生模型的副本，无论是否进行修改，但需满足以下条件： 3.1. 如果您分发模型，您必须向模型的任何其他接收方提供本协议的副本，并在随副本提供的“通知”文本文件中包含以下归属声明：“由NVIDIA Corporation根据NVIDIA开放模型许可证授权”； 3.2. 如果您分发或提供NVIDIA Cosmos模型，或包含或使用NVIDIA Cosmos模型的产品或服务（包括人工智能模型），使用NVIDIA Cosmos模型创建衍生模型，或使用NVIDIA Cosmos模型或其输出来创建、训练、微调或以其他方式改进人工智能模型，您应在相关网站、用户界面、博客文章、关于页面或产品文档中注明“基于NVIDIA Cosmos构建”； 3.3. 您可以在您的修改内容中添加自己的版权声明，并可以为您的修改内容或任何此类衍生模型整体的使用、复制或分发提供额外或不同的许可条款和条件，前提是您对模型的使用、复制和分发在其他方面符合本协议规定的条件。

4. 商标

本协议未授予使用NVIDIA的商号、商标、服务标记或产品名称的许可，但在合理和惯常描述模型来源以及复制“通知”文本文件内容时所需的情况除外。

5. 保修免责声明

除非适用法律要求或书面同意，NVIDIA按“现状”提供模型，不提供任何形式的明示或暗示的保证或条件，包括但不限于所有权、不侵权、适销性或特定用途适用性的任何保证或条件。您独自负责确定使用或再分发模型、衍生模型和输出的适当性，并承担在本协议下行使权限所涉及的任何风险。

6. 责任限制

在任何情况下，无论依据何种法律理论（包括侵权（包括疏忽）、合同或其他），除非适用法律要求（如故意和重大过失行为）或书面同意，NVIDIA均不对您因本协议或使用或无法使用模型、衍生模型或输出而产生的任何损害负责，包括但不限于任何直接、间接、特殊、偶然或后果性损害（包括但不限于商誉损失、工作停顿、计算机故障或故障，或任何和所有其他商业损害或损失），即使NVIDIA已被告知此类损害的可能性。

7. 赔偿

您将赔偿并使NVIDIA免受因您使用或分发模型、模型衍生作品或输出而引起的任何第三方索赔的损害。

8. 反馈

NVIDIA感谢您的反馈，您同意NVIDIA可以无限制地使用您的反馈，且无需向您支付补偿。

9. 适用法律

本协议在所有方面均受美国法律和特拉华州法律管辖，不考虑法律冲突原则或《联合国国际货物销售合同公约》。位于加利福尼亚州圣克拉拉县的州和联邦法院对因本协议引起或与之相关的任何争议或索赔具有专属管辖权，双方不可撤销地同意接受这些法院的个人管辖权和审判地；但任何一方均可在任何司法管辖区申请禁令救济或同等类型的紧急法律救济。