模型简介
模型特点
模型能力
使用案例
🚀 Cosmos-Predict2:一套基于扩散模型的世界基础模型,提供2B和14B版本
Cosmos-Predict2是一系列高性能的预训练世界基础模型,专为物理AI开发生成具备物理感知的图像、视频和世界状态而设计。它能根据文本、图像或视频输入,生成动态、高质量的图像和视频,可作为各种世界生成相关应用或研究的基石。
🚀 快速开始
模型概述
描述
Cosmos-Predict2:这是一系列高性能的预训练世界基础模型,专为物理AI开发生成具备物理感知的图像、视频和世界状态而设计。
Cosmos-Predict2扩散模型是一组基于扩散的世界基础模型,能够根据文本、图像或视频输入,生成动态、高质量的图像和视频。它可以作为各种世界生成相关应用或研究的构建模块。这些模型在NVIDIA开放模型许可协议下可用于商业用途。
模型开发者:NVIDIA
模型版本
Cosmos-Predict2基于扩散的模型家族包括以下模型:
- Cosmos-Predict2-2B-Text2Image
- 根据文本描述,预测输出图像。
- Cosmos-Predict2-14B-Text2Image
- 根据文本描述,预测输出图像。
- Cosmos-Predict2-2B-Video2World
- 根据文本描述和作为第一帧的图像,预测未来帧。
- Cosmos-Predict2-14B-Video2World
- 根据文本描述和作为第一帧的图像,预测未来帧。
许可证
该模型根据 NVIDIA开放模型许可证 发布。如需定制许可证,请联系 cosmos-license@nvidia.com。
在NVIDIA开放模型许可证下,NVIDIA确认:
- 模型可用于商业用途。
- 您可以自由创建和分发衍生模型。
- NVIDIA不主张对使用模型或衍生模型生成的任何输出拥有所有权。
⚠️ 重要提示
如果您绕过、禁用、降低模型中包含的任何技术限制、安全护栏或相关安全护栏超参数、加密、安全、数字版权管理或认证机制的有效性,您在 NVIDIA开放模型许可协议 下的权利将自动终止。
部署地域
全球
模型架构
Cosmos-Predict2-14B-Text2Image是一个用于在潜在空间进行图像去噪的扩散变压器模型。该网络由交错的自注意力、交叉注意力和前馈层作为构建块组成。交叉注意力层允许模型在整个去噪过程中以输入文本为条件。在每一层之前,应用自适应层归一化来嵌入去噪的时间信息。
输入/输出规格
属性 | 详情 |
---|---|
输入类型 | 文本 |
输入格式 | 字符串 |
输入参数 | 一维(1D) |
输入相关其他属性 | 输入字符串应包含少于300个单词,并应提供用于世界生成的描述性内容,例如场景描述、关键对象或角色、背景以及要在5秒内描绘的任何特定动作或运动。 |
输出类型 | 图像 |
输出格式 | jpg |
输出参数 | 二维(2D) |
输出相关其他属性 | 默认情况下,生成的图像分辨率为1280x704像素,RGB颜色。图像内容可视化输入文本描述,在指定的时间限制内捕捉关键元素。 |
我们的AI模型设计和/或优化为在NVIDIA GPU加速系统上运行。通过利用NVIDIA的硬件(例如GPU核心)和软件框架(例如CUDA库),与仅使用CPU的解决方案相比,该模型实现了更快的训练和推理时间。
软件集成
运行时引擎:
import torch
from diffusers import Cosmos2TextToImagePipeline
# 可用的检查点:nvidia/Cosmos-Predict2-2B-Text2Image, nvidia/Cosmos-Predict2-14B-Text2Image
model_id = "nvidia/Cosmos-Predict2-14B-Text2Image"
pipe = Cosmos2TextToImagePipeline.from_pretrained(model_id, torch_dtype=torch.bfloat16)
pipe.to("cuda")
prompt = "A close-up shot captures a vibrant yellow scrubber vigorously working on a grimy plate, its bristles moving in circular motions to lift stubborn grease and food residue. The dish, once covered in remnants of a hearty meal, gradually reveals its original glossy surface. Suds form and bubble around the scrubber, creating a satisfying visual of cleanliness in progress. The sound of scrubbing fills the air, accompanied by the gentle clinking of the dish against the sink. As the scrubber continues its task, the dish transforms, gleaming under the bright kitchen lights, symbolizing the triumph of cleanliness over mess."
negative_prompt = "The video captures a series of frames showing ugly scenes, static with no motion, motion blur, over-saturation, shaky footage, low resolution, grainy texture, pixelated images, poorly lit areas, underexposed and overexposed scenes, poor color balance, washed out colors, choppy sequences, jerky movements, low frame rate, artifacting, color banding, unnatural transitions, outdated special effects, fake elements, unconvincing visuals, poorly edited content, jump cuts, visual noise, and flickering. Overall, the video is of poor quality."
output = pipe(
prompt=prompt, negative_prompt=negative_prompt, generator=torch.Generator().manual_seed(1)
).images[0]
output.save("output.png")
支持的硬件微架构兼容性:
- NVIDIA Ampere
- NVIDIA Blackwell
- NVIDIA Hopper
⚠️ 重要提示
仅测试了BF16精度。其他精度(如FP16或FP32)未得到官方支持。
推理
加速引擎:PyTorch,Transformer Engine
操作系统:
- Linux(我们未在其他操作系统上进行测试。)
系统要求和性能: 该模型需要48.93 GB的GPU VRAM。 以下表格显示了在不同NVIDIA GPU硬件上单次生成的推理时间:
GPU硬件 | 推理运行时间 |
---|---|
NVIDIA GB200 | 8.5秒 |
NVIDIA B200 | 8.68秒 |
NVIDIA RTX PRO 6000工作站版 | 24.16秒 |
NVIDIA DGX Spark | 138.94秒 |
NVIDIA H200 SXM | 15.96秒 |
NVIDIA H200 NVL | 16.95秒 |
NVIDIA H100 PCIe | 23.83秒 |
NVIDIA H100 NVL | 23.97秒 |
NVIDIA H20 | 59.59秒 |
NVIDIA L40S | (内存不足) |
NVIDIA RTX 6000 Ada Generation | 167.86秒 |
质量基准: 为了进行比较评估,我们提供了来自 GenEval 评估框架的基准分数。
方法 | 总体 | 单个对象 | 两个对象 | 计数 | 颜色 | 位置 | 颜色属性 |
---|---|---|---|---|---|---|---|
Stable Diffusion XL | 0.55 | 0.98 | 0.74 | 0.39 | 0.85 | 0.15 | 0.23 |
DALL-E 3 | 0.67 | 0.96 | 0.87 | 0.47 | 0.83 | 0.43 | 0.45 |
Flux 1-Dev | 0.66 | 0.98 | 0.79 | 0.73 | 0.77 | 0.22 | 0.45 |
Cosmos-Predict2-2B-Text2Image | 0.83 | 1.00 | 0.99 | 0.73 | 0.89 | 0.65 | 0.73 |
Cosmos-Predict2-14B-Text2Image | 0.84 | 1.00 | 0.98 | 0.79 | 0.90 | 0.64 | 0.72 |
💻 使用示例
基础用法
import torch
from diffusers import Cosmos2TextToImagePipeline
# 可用的检查点:nvidia/Cosmos-Predict2-2B-Text2Image, nvidia/Cosmos-Predict2-14B-Text2Image
model_id = "nvidia/Cosmos-Predict2-14B-Text2Image"
pipe = Cosmos2TextToImagePipeline.from_pretrained(model_id, torch_dtype=torch.bfloat16)
pipe.to("cuda")
prompt = "A close-up shot captures a vibrant yellow scrubber vigorously working on a grimy plate, its bristles moving in circular motions to lift stubborn grease and food residue. The dish, once covered in remnants of a hearty meal, gradually reveals its original glossy surface. Suds form and bubble around the scrubber, creating a satisfying visual of cleanliness in progress. The sound of scrubbing fills the air, accompanied by the gentle clinking of the dish against the sink. As the scrubber continues its task, the dish transforms, gleaming under the bright kitchen lights, symbolizing the triumph of cleanliness over mess."
negative_prompt = "The video captures a series of frames showing ugly scenes, static with no motion, motion blur, over-saturation, shaky footage, low resolution, grainy texture, pixelated images, poorly lit areas, underexposed and overexposed scenes, poor color balance, washed out colors, choppy sequences, jerky movements, low frame rate, artifacting, color banding, unnatural transitions, outdated special effects, fake elements, unconvincing visuals, poorly edited content, jump cuts, visual noise, and flickering. Overall, the video is of poor quality."
output = pipe(
prompt=prompt, negative_prompt=negative_prompt, generator=torch.Generator().manual_seed(1)
).images[0]
output.save("output.png")
详细文档
- 详情请参阅 Cosmos-Predict2。
局限性
尽管Cosmos-Predict2文本到图像模型在物理AI的世界生成方面有了各种改进,但在世界预测方面仍面临技术和应用上的限制。特别是,它们难以生成无伪影的高分辨率图像。常见问题包括相机和对象运动不稳定,以及交互不精确。这些模型可能在生成的图像中不准确地表示3D空间或物理定律,导致出现不真实的交互和不合理的运动等伪影。因此,将这些模型应用于需要模拟基于物理定律的环境或复杂多智能体动力学的应用仍然具有挑战性。
伦理考量
NVIDIA认为可信AI是一项共同责任,我们已经制定了政策和实践,以支持各种AI应用的开发。当开发者按照我们的服务条款下载或使用该模型时,应与内部模型团队合作,确保该模型满足相关行业和用例的要求,并解决产品意外滥用的问题。
用户对模型的输入和输出负责。用户在部署前有责任确保该模型的安全集成,包括实施护栏以及其他安全机制。
有关该模型伦理考量的更多详细信息,请参阅以下可解释性、偏差、安全与保障以及隐私的子卡片。
📄 许可证
本模型遵循 NVIDIA开放模型许可证 发布。完整的许可协议内容如下:
NVIDIA开放模型许可协议
版本发布日期:2025年4月30日
本NVIDIA开放模型许可协议(以下简称“协议”)是您所代表的法律实体(若未指明实体,则指您本人)与NVIDIA Corporation及其附属公司(以下简称“NVIDIA”)之间的法律协议,规范您在本协议下使用NVIDIA向您提供的模型的行为。NVIDIA和您各自为“一方”,合称为“双方”。
根据本协议发布的NVIDIA模型旨在被允许使用,并促进人工智能技术的进一步发展。在遵守本协议条款的前提下,NVIDIA确认:
- 模型可用于商业用途。
- 您可以自由创建和分发衍生模型。
- NVIDIA不主张对使用模型或衍生模型生成的任何输出拥有所有权。
通过使用、复制、修改、分发、执行或展示模型或衍生模型的任何部分或元素,或以其他方式接受本协议的条款,您同意受本协议的约束。
1. 定义
以下定义适用于本协议: 1.1. “NVIDIA Cosmos模型”指根据本协议共享的多模态模型。 1.2. “衍生模型”指所有(a)对模型的修改,(b)基于模型的作品,以及(c)模型的任何其他衍生作品。输出不属于衍生模型。 1.3. “法律实体”指行动实体以及所有对该实体具有控制权、受该实体控制或与该实体处于共同控制之下的其他实体的联合体。就本定义而言,“控制”指(a)直接或间接导致该实体的经营方向或管理的权力,无论是通过合同还是其他方式;(b)拥有该实体已发行股份的百分之五十(50%)或以上;或(c)对该实体的实益所有权。 1.4. “模型”指根据本协议共享的机器学习模型、软件、检查点、学习到的权重、算法、参数、配置文件和文档。 1.5. “您”或“您的”指行使本协议授予的权限的个人或法律实体。
2. 使用条件、许可授予、人工智能伦理和知识产权所有权
2.1. 使用条件。模型和任何衍生模型受本协议第2节和第3节所述的附加条款约束,并规范您的使用行为。如果您对任何实体提起版权或专利诉讼(包括在诉讼中的交叉索赔或反诉),声称模型或衍生模型构成直接或间接的版权或专利侵权,则本协议授予您的关于该模型或衍生模型的任何许可将自提起该诉讼之日起终止。如果您绕过、禁用、降低模型中包含的任何技术限制、安全护栏或相关安全护栏超参数、加密、安全、数字版权管理或认证机制的有效性,您在本协议下的权利将自动终止。NVIDIA可随时更新本协议以遵守法律和监管要求,您同意遵守任何更新后的许可,否则停止复制、使用和分发模型及任何衍生模型。 2.2. 许可授予。本协议授予的权利明确以您完全遵守本协议的条款为条件。在遵守本协议的条款和条件的前提下,NVIDIA特此授予您永久的、全球范围的、非排他的、免费的、免版税的、可撤销的(如第2.1节所述)许可,允许您公开执行、公开展示、复制、使用、创作衍生作品、制造、委托制造、销售、要约销售、分发(通过多级分发)和进口模型。 2.3. 人工智能伦理。在本协议下使用模型必须符合NVIDIA在 https://www.nvidia.com/en-us/agreements/trustworthy-ai/terms/ 上规定的可信人工智能条款。 2.4. NVIDIA拥有模型以及NVIDIA创建的任何模型衍生作品的所有权。在NVIDIA对模型或其模型衍生作品的底层所有权权利的前提下,您是并将继续是您的模型衍生作品的所有者。NVIDIA不主张对输出拥有所有权。您对输出及其后续使用负责。除非本协议明确授予,(a)NVIDIA保留与模型相关的所有权利、权益和救济措施,(b)不会通过暗示、禁止反言或其他方式向您授予任何其他许可或权利。
3. 再分发
您可以在任何介质中复制和分发模型或其衍生模型的副本,无论是否进行修改,但需满足以下条件: 3.1. 如果您分发模型,您必须向模型的任何其他接收方提供本协议的副本,并在随副本提供的“通知”文本文件中包含以下归属声明:“由NVIDIA Corporation根据NVIDIA开放模型许可证授权”; 3.2. 如果您分发或提供NVIDIA Cosmos模型,或包含或使用NVIDIA Cosmos模型的产品或服务(包括人工智能模型),使用NVIDIA Cosmos模型创建衍生模型,或使用NVIDIA Cosmos模型或其输出来创建、训练、微调或以其他方式改进人工智能模型,您应在相关网站、用户界面、博客文章、关于页面或产品文档中注明“基于NVIDIA Cosmos构建”; 3.3. 您可以在您的修改内容中添加自己的版权声明,并可以为您的修改内容或任何此类衍生模型整体的使用、复制或分发提供额外或不同的许可条款和条件,前提是您对模型的使用、复制和分发在其他方面符合本协议规定的条件。
4. 商标
本协议未授予使用NVIDIA的商号、商标、服务标记或产品名称的许可,但在合理和惯常描述模型来源以及复制“通知”文本文件内容时所需的情况除外。
5. 保修免责声明
除非适用法律要求或书面同意,NVIDIA按“现状”提供模型,不提供任何形式的明示或暗示的保证或条件,包括但不限于所有权、不侵权、适销性或特定用途适用性的任何保证或条件。您独自负责确定使用或再分发模型、衍生模型和输出的适当性,并承担在本协议下行使权限所涉及的任何风险。
6. 责任限制
在任何情况下,无论依据何种法律理论(包括侵权(包括疏忽)、合同或其他),除非适用法律要求(如故意和重大过失行为)或书面同意,NVIDIA均不对您因本协议或使用或无法使用模型、衍生模型或输出而产生的任何损害负责,包括但不限于任何直接、间接、特殊、偶然或后果性损害(包括但不限于商誉损失、工作停顿、计算机故障或故障,或任何和所有其他商业损害或损失),即使NVIDIA已被告知此类损害的可能性。
7. 赔偿
您将赔偿并使NVIDIA免受因您使用或分发模型、模型衍生作品或输出而引起的任何第三方索赔的损害。
8. 反馈
NVIDIA感谢您的反馈,您同意NVIDIA可以无限制地使用您的反馈,且无需向您支付补偿。
9. 适用法律
本协议在所有方面均受美国法律和特拉华州法律管辖,不考虑法律冲突原则或《联合国国际货物销售合同公约》。位于加利福尼亚州圣克拉拉县的州和联邦法院对因本协议引起或与之相关的任何争议或索赔具有专属管辖权,双方不可撤销地同意接受这些法院的个人管辖权和审判地;但任何一方均可在任何司法管辖区申请禁令救济或同等类型的紧急法律救济。
10. 贸易与合规
您同意遵守所有适用的出口、进口、贸易和经济制裁法律和法规(包括但不限于美国出口管理条例和外国资产控制办公室条例)及其修订内容。这些法律包括对目的地、最终用户和最终用途的限制。
通过点击下方的“提交”按钮,您表示接受NVIDIA开放模型许可协议的条款,并确认您是在将使用Cosmos模型的国家具有法定成年年龄的成年人,并且有权接受本协议。
您提供的信息将根据 NVIDIA隐私政策 进行收集、存储、处理和共享。









