模型简介
模型特点
模型能力
使用案例
🚀 Cosmos-Predict2:基于扩散模型的世界基础模型套件(2B和14B版本)
Cosmos-Predict2是一套高性能的预训练世界基础模型,专为物理AI开发而设计,可生成具有物理感知的图像、视频和世界状态,为相关应用和研究提供了强大支持。
🚀 快速开始
模型概述
描述
Cosmos-Predict2 是一系列高性能的预训练世界基础模型,专为物理AI开发而设计,用于生成具有物理感知的图像、视频和世界状态。
Cosmos-Predict2扩散模型是基于扩散的世界基础模型集合,可根据文本、图像或视频输入生成动态、高质量的图像和视频。它可以作为各种与世界生成相关的应用或研究的构建块。这些模型可根据NVIDIA开放模型许可协议进行商业使用。
模型开发者:NVIDIA
模型版本
Cosmos-Predict2基于扩散的模型家族包括以下模型:
- Cosmos-Predict2-2B-Text2Image
- 根据文本描述预测输出图像。
- Cosmos-Predict2-14B-Text2Image
- 根据文本描述预测输出图像。
- Cosmos-Predict2-2B-Video2World
- 根据文本描述和第一帧图像预测未来帧。
- Cosmos-Predict2-14B-Video2World
- 根据文本描述和第一帧图像预测未来帧。
许可证
该模型根据 NVIDIA开放模型许可证 发布。如需定制许可证,请联系 cosmos-license@nvidia.com。
根据NVIDIA开放模型许可证,NVIDIA确认:
- 模型可用于商业用途。
- 您可以自由创建和分发衍生模型。
- NVIDIA不主张对使用模型或衍生模型生成的任何输出拥有所有权。
⚠️ 重要提示
如果您绕过、禁用、降低模型中包含的任何技术限制、安全护栏 或相关安全护栏超参数、加密、安全、数字版权管理或认证机制的有效性,您在 NVIDIA开放模型许可协议 下的权利将自动终止。
部署地域
全球
模型架构
Cosmos-Predict2-2B-Video2World是一个用于潜在空间视频去噪的扩散变压器模型。该网络由交错的自注意力、交叉注意力和前馈层作为构建块组成。交叉注意力层允许模型在整个去噪过程中以输入文本为条件。在每一层之前,应用自适应层归一化来嵌入去噪的时间信息。当提供图像或视频作为输入时,它们的潜在帧会在时间维度上与生成的帧连接起来。在条件潜在帧中添加增强噪声以弥合训练和推理之间的差距。
输入/输出规格
属性 | 详情 |
---|---|
输入类型 | 文本+图像、文本+视频 |
输入格式 | 文本:字符串;图像:jpg、png、jpeg、webp;视频:mp4 |
输入参数 | 文本:一维;图像:二维;视频:三维 |
输入其他属性 | 输入字符串应少于300个单词,并应提供用于世界生成的描述性内容,如场景描述、关键对象或角色、背景以及在5秒内要描绘的任何特定动作或运动。输入图像的分辨率应为1280x704。输入视频的分辨率应为1280x704,且包含5个输入帧。 |
输出类型 | 视频 |
输出格式 | mp4 |
输出参数 | 三维 |
输出其他属性 | 默认情况下,生成的视频是一个5秒的剪辑,分辨率为1280x704像素,帧率为16帧/秒。视频内容将输入文本描述可视化为一个简短的动画场景,在指定的时间限制内捕捉关键元素。 |
我们的AI模型设计和/或优化为在NVIDIA GPU加速系统上运行。通过利用NVIDIA的硬件(如GPU核心)和软件框架(如CUDA库),与仅使用CPU的解决方案相比,该模型实现了更快的训练和推理时间。
软件集成
运行时引擎:
💻 使用示例
基础用法
import torch
from diffusers import Cosmos2VideoToWorldPipeline
from diffusers.utils import export_to_video, load_image
# 可用的检查点:nvidia/Cosmos-Predict2-2B-Video2World, nvidia/Cosmos-Predict2-14B-Video2World
model_id = "nvidia/Cosmos-Predict2-2B-Video2World"
pipe = Cosmos2VideoToWorldPipeline.from_pretrained(model_id, torch_dtype=torch.bfloat16)
pipe.to("cuda")
prompt = "A close-up shot captures a vibrant yellow scrubber vigorously working on a grimy plate, its bristles moving in circular motions to lift stubborn grease and food residue. The dish, once covered in remnants of a hearty meal, gradually reveals its original glossy surface. Suds form and bubble around the scrubber, creating a satisfying visual of cleanliness in progress. The sound of scrubbing fills the air, accompanied by the gentle clinking of the dish against the sink. As the scrubber continues its task, the dish transforms, gleaming under the bright kitchen lights, symbolizing the triumph of cleanliness over mess."
negative_prompt = "The video captures a series of frames showing ugly scenes, static with no motion, motion blur, over-saturation, shaky footage, low resolution, grainy texture, pixelated images, poorly lit areas, underexposed and overexposed scenes, poor color balance, washed out colors, choppy sequences, jerky movements, low frame rate, artifacting, color banding, unnatural transitions, outdated special effects, fake elements, unconvincing visuals, poorly edited content, jump cuts, visual noise, and flickering. Overall, the video is of poor quality."
image = load_image(
"https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/yellow-scrubber.png"
)
video = pipe(
image=image, prompt=prompt, negative_prompt=negative_prompt, generator=torch.Generator().manual_seed(1)
).frames[0]
export_to_video(video, "output.mp4", fps=16)
支持的硬件微架构兼容性:
- NVIDIA Ampere
- NVIDIA Blackwell
- NVIDIA Hopper
⚠️ 重要提示
仅测试了BF16精度。其他精度(如FP16或FP32)未得到官方支持。
推理
加速引擎:PyTorch,Transformer Engine
操作系统:
- Linux(我们未在其他操作系统上进行测试。)
系统要求和性能: 该模型需要32.54 GB的GPU VRAM。 以下表格显示了在不同NVIDIA GPU硬件上进行单次生成的推理时间:
GPU硬件 | 推理运行时间 |
---|---|
NVIDIA GB200 | 25.61秒 |
NVIDIA B200 | 30.7秒 |
NVIDIA RTX PRO 6000工作站版 | 82.43秒 |
NVIDIA DGX Spark | 344.64秒 |
NVIDIA H200 SXM | 50.2秒 |
NVIDIA H200 NVL | 54.01秒 |
NVIDIA H100 PCIe | 79.87秒 |
NVIDIA H100 NVL | 87.32秒 |
NVIDIA H20 | 179.69秒 |
NVIDIA L40S | 127.49秒 |
NVIDIA RTX 6000 Ada Generation | 180.99秒 |
质量基准: 为了进行比较评估,我们使用 PBench 展示了基准分数。
模型 | PBench总体得分 | PBench领域得分 | PBench质量得分 |
---|---|---|---|
LTX-Video | 74.0 | 77.2 | 70.8 |
HunyuanVideo-I2V | 74.0 | 77.4 | 70.6 |
CogVideoX-5B-I2V | 74.2 | 79.5 | 69.0 |
Wan2.1-I2V-14B-720P | 75.8 | 81.9 | 69.7 |
Cosmos-Predict2-2B-Video2World | 77.2 | 84.8 | 69.6 |
Cosmos-Predict2-14B-Video2World | 77.4 | 84.9 | 69.9 |
使用说明
- 详情请参阅 Cosmos-Predict2。
局限性
尽管在物理AI的世界生成方面有了各种改进,但Cosmos-Predict2 video2world模型在世界预测方面仍然面临技术和应用上的限制。特别是,它们难以生成无伪影的长分辨率高视频。常见问题包括时间不一致、相机和物体运动不稳定以及交互不精确。这些模型可能在生成的视频中不准确地表示3D空间、4D时空或物理定律,导致出现物体消失或变形、不现实的交互和不合理的运动等伪影。因此,将这些模型应用于需要模拟基于物理定律的环境或复杂多智能体动态的应用仍然具有挑战性。
伦理考量
NVIDIA认为可信AI是一项共同责任…… (原文此处未完整,可补充完整内容后再进行处理)
📄 许可证
本模型遵循 NVIDIA开放模型许可证 发布。以下是该许可证的主要内容:
1. 定义
- NVIDIA Cosmos模型:指根据本协议共享的多模态模型。
- 衍生模型:指对模型的所有修改、基于模型的作品以及模型的任何其他衍生作品。输出不是衍生模型。
- 法律实体:指行动实体以及所有控制该实体、受该实体控制或与该实体处于共同控制之下的其他实体的联合体。就本定义而言,“控制”指(a)直接或间接导致该实体的方向或管理的权力,无论是通过合同还是其他方式;(b)拥有百分之五十(50%)或更多的已发行股份;或(c)对该实体的实益所有权。
- 模型:指根据本协议共享的机器学习模型、软件、检查点、学习权重、算法、参数、配置文件和文档。
- 您:指行使本协议授予的权限的个人或法律实体。
2. 使用条件、许可授予、AI伦理和知识产权所有权
- 使用条件:模型和任何衍生模型须遵守本协议第2节和第3节所述的附加条款,并管理您的使用。如果您对任何实体提起版权或专利诉讼(包括诉讼中的交叉索赔或反诉),声称模型或衍生模型构成直接或间接的版权或专利侵权,则本协议授予您的该模型或衍生模型的任何许可将自提起该诉讼之日起终止。如果您绕过、禁用、降低模型中包含的任何技术限制、安全护栏或相关安全护栏超参数、加密、安全、数字版权管理或认证机制的有效性,您在本协议下的权利将自动终止。NVIDIA可随时更新本协议以遵守法律和监管要求,您同意遵守任何更新后的许可,否则停止复制、使用和分发模型及任何衍生模型。
- 许可授予:此处授予的权利明确以您完全遵守本协议的条款为条件。根据本协议的条款和条件,NVIDIA特此授予您永久的、全球的、非排他的、免费的、免版税的、可撤销的(如第2.1节所述)许可,以公开表演、公开展示、复制、使用、创作衍生作品、制造、委托制造、销售、提供销售、分发(通过多级分发)和进口模型。
- AI伦理:根据本协议使用模型必须符合NVIDIA在 https://www.nvidia.com/en-us/agreements/trustworthy-ai/terms/ 上发布的可信AI条款。
- 知识产权所有权:NVIDIA拥有模型和NVIDIA创建的任何模型衍生作品。在NVIDIA对模型或其模型衍生作品的基础所有权权利的前提下,您是并将是您的模型衍生作品的所有者。NVIDIA不主张对输出拥有所有权权利。您负责输出及其后续使用。除非本协议明确授予,(a)NVIDIA保留与模型相关的所有权利、权益和补救措施;(b)未通过暗示、禁止反言或其他方式向您授予任何其他许可或权利。
3. 再分发
您可以在任何介质中复制和分发模型或其衍生模型的副本,无论是否进行修改,但前提是您满足以下条件:
- 如果您分发模型,您必须向模型的任何其他接收者提供本协议的副本,并在随附的“通知”文本文件中包含以下归属声明:“由NVIDIA Corporation根据NVIDIA开放模型许可证授权”。
- 如果您分发或提供NVIDIA Cosmos模型,或包含或使用NVIDIA Cosmos模型的产品或服务(包括AI模型),使用NVIDIA Cosmos模型创建衍生模型,或使用NVIDIA Cosmos模型或其输出来创建、训练、微调或以其他方式改进AI模型,您将在相关网站、用户界面、博客文章、关于页面或产品文档中包含“基于NVIDIA Cosmos构建”。
- 您可以在您的修改中添加自己的版权声明,并可以为您的修改或任何此类衍生模型的整体使用、复制或分发提供额外或不同的许可条款和条件,前提是您对模型的使用、复制和分发否则符合本协议规定的条件。
4. 商标
本协议未授予使用NVIDIA的商号、商标、服务标记或产品名称的许可,除非在描述模型的来源和复制“通知”文本文件的内容时进行合理和惯常的使用所必需。
5. 保修免责声明
除非适用法律要求或书面同意,NVIDIA按“现状”提供模型,不提供任何形式的保证或条件,无论是明示的还是暗示的,包括但不限于所有权、不侵权、适销性或特定用途适用性的任何保证或条件。您独自负责确定使用或再分发模型、衍生模型和输出的适用性,并承担与您行使本协议下的权限相关的任何风险。
6. 责任限制
在任何情况下,无论根据何种法律理论,无论是侵权(包括疏忽)、合同还是其他方式,除非适用法律要求(如故意和重大过失行为)或书面同意,NVIDIA均不对您因本协议或使用或无法使用模型、衍生模型或输出而产生的任何损害负责,包括任何直接、间接、特殊、偶然或后果性的损害(包括但不限于商誉损失、工作停顿、计算机故障或故障或任何和所有其他商业损害或损失),即使NVIDIA已被告知此类损害的可能性。
7. 赔偿
您将赔偿并使NVIDIA免受任何第三方因您使用或分发模型、模型衍生作品或输出而产生的或与之相关的任何索赔。
8. 反馈
NVIDIA感谢您的反馈,您同意NVIDIA可以无限制地使用该反馈,且无需向您支付补偿。
9. 适用法律
本协议在所有方面均受美国法律和特拉华州法律管辖,不考虑法律冲突原则或《联合国国际货物销售合同公约》。位于加利福尼亚州圣克拉拉县的州和联邦法院对因本协议产生的或与之相关的任何争议或索赔具有专属管辖权,双方不可撤销地同意这些法院的个人管辖权和审判地;但任何一方均可在任何司法管辖区申请禁令救济或同等类型的紧急法律救济。
10. 贸易和合规
您同意遵守所有适用的出口、进口、贸易和经济制裁法律和法规,包括但不限于美国出口管理条例和外国资产控制办公室条例。这些法律包括对目的地、最终用户和最终用途的限制。



