NVComposer开源模型 - 无需外部对齐，实现高质量3D视图免费生成

首页

Nvcomposer

由 TencentARC 开发

NVComposer是一种无需显式外部对齐的生成式多视角新视角合成模型，通过图像-姿态双流扩散和几何感知特征对齐实现高质量3D视图生成。

3D视觉英语开源协议:其他 #图像转3D生成 #无姿态估计新视角合成 #几何感知特征对齐

下载量 93

发布时间 : 12/6/2024

模型简介

该模型通过同步生成目标新视角与条件相机姿态，结合几何感知特征对齐模块，显著提升了多视角新视角合成的质量和灵活性。

模型特点

无外部对齐依赖

通过双流扩散模型同步生成图像和相机姿态，无需显式姿态估计或预重建流程

几何感知特征对齐

利用预训练稠密立体模型提取几何先验，增强特征对齐效果

多视角兼容性

在视角间重叠不足或存在遮挡情况下仍能保持稳定性能

模型能力

单图像3D视图生成

多视角图像合成

相机姿态估计

几何特征提取

使用案例

3D内容创作

虚拟场景构建

从单张或多张图片生成完整3D场景

可生成高质量的多视角一致3D视图

增强现实应用

为AR应用快速生成3D对象视图

实时生成新视角的能力适合AR场景需求

影视特效

视角扩展

基于有限拍摄素材生成额外视角

可减少实际拍摄工作量同时保持视觉一致性

🚀 NVComposer

NVComposer是一种全新的图像到3D生成方法，它无需显式的外部对齐，通过引入图像 - 姿态双流扩散模型和几何感知特征对齐模块，提升了生成式多视图新视角合成（NVS）任务的性能，增强了模型的易用性。

🚀 快速开始

模型下载

使用huggingface_hub（以版本0.1为例）下载模型检查点：

from huggingface_hub import hf_hub_download

checkpoint_path = hf_hub_download(
    repo_id="TencentARC/NVComposer",
    filename="NVComposer-V0.1.ckpt"
)

下载的检查点文件可在checkpoint_path找到。

代码获取

请查看我们的 GitHub仓库获取代码。

视频介绍

观看介绍视频，了解更多关于NVComposer的信息。

在线演示

你可以在此尝试演示。

✨ 主要特性

无需显式外部对齐：现有方法依赖外部多视图对齐过程，而NVComposer通过引入两个关键组件，使生成模型能够隐式推断多个条件视图之间的空间和几何关系，无需显式的外部对齐。
图像 - 姿态双流扩散模型：同时生成目标新视图和条件相机姿态。
几何感知特征对齐模块：在训练期间从密集立体模型中提取几何先验。
性能卓越：在生成式多视图NVS任务中达到了最先进的性能，提高了合成质量，尤其是在未定位输入视图数量增加时。

📚 详细文档

摘要

生成模型的最新进展显著改善了从多视图数据进行新视图合成（NVS）的效果。然而，现有方法依赖外部多视图对齐过程，如显式姿态估计或预重建，这限制了它们的灵活性和易用性，特别是当由于视图之间的重叠不足或遮挡导致对齐不稳定时。在本文中，我们提出了NVComposer，一种无需显式外部对齐的新方法。NVComposer通过引入两个关键组件，使生成模型能够隐式推断多个条件视图之间的空间和几何关系：1）一个图像 - 姿态双流扩散模型，同时生成目标新视图和条件相机姿态；2）一个几何感知特征对齐模块，在训练期间从密集立体模型中提取几何先验。大量实验表明，NVComposer在生成式多视图NVS任务中达到了最先进的性能，消除了对外部对齐的依赖，从而提高了模型的易用性。我们的方法在未定位输入视图数量增加时，合成质量有显著提高，凸显了其在更灵活和易用的生成式NVS系统中的潜力。

方法

NVComposer包含：

一个图像 - 姿态双流扩散模型，在生成新视图的同时隐式估计条件图像的相机姿态。
一个几何感知特征对齐适配器，使用从预训练的密集立体模型中提取的几何先验。

模型架构

📄 许可证

本项目采用其他许可证。