NVComposer開源模型 - 無需外部對齊，實現高質量3D視圖免費生成

首頁

Nvcomposer

由TencentARC開發

NVComposer是一種無需顯式外部對齊的生成式多視角新視角合成模型，通過圖像-姿態雙流擴散和幾何感知特徵對齊實現高質量3D視圖生成。

3D視覺英語開源協議:其他 #圖像轉3D生成 #無姿態估計新視角合成 #幾何感知特徵對齊

下載量 93

發布時間 : 12/6/2024

模型概述

該模型通過同步生成目標新視角與條件相機姿態，結合幾何感知特徵對齊模塊，顯著提升了多視角新視角合成的質量和靈活性。

模型特點

無外部對齊依賴

通過雙流擴散模型同步生成圖像和相機姿態，無需顯式姿態估計或預重建流程

幾何感知特徵對齊

利用預訓練稠密立體模型提取幾何先驗，增強特徵對齊效果

多視角兼容性

在視角間重疊不足或存在遮擋情況下仍能保持穩定性能

模型能力

單圖像3D視圖生成

多視角圖像合成

相機姿態估計

幾何特徵提取

使用案例

3D內容創作

虛擬場景構建

從單張或多張圖片生成完整3D場景

可生成高質量的多視角一致3D視圖

增強現實應用

為AR應用快速生成3D對象視圖

即時生成新視角的能力適合AR場景需求

影視特效

視角擴展

基於有限拍攝素材生成額外視角

可減少實際拍攝工作量同時保持視覺一致性

🚀 NVComposer

NVComposer是一種全新的圖像到3D生成方法，它無需顯式的外部對齊，通過引入圖像 - 姿態雙流擴散模型和幾何感知特徵對齊模塊，提升了生成式多視圖新視角合成（NVS）任務的性能，增強了模型的易用性。

🚀 快速開始

模型下載

使用huggingface_hub（以版本0.1為例）下載模型檢查點：

from huggingface_hub import hf_hub_download

checkpoint_path = hf_hub_download(
    repo_id="TencentARC/NVComposer",
    filename="NVComposer-V0.1.ckpt"
)

下載的檢查點文件可在checkpoint_path找到。

代碼獲取

請查看我們的 GitHub倉庫獲取代碼。

視頻介紹

觀看介紹視頻，瞭解更多關於NVComposer的信息。

在線演示

你可以在此嘗試演示。

✨ 主要特性

無需顯式外部對齊：現有方法依賴外部多視圖對齊過程，而NVComposer通過引入兩個關鍵組件，使生成模型能夠隱式推斷多個條件視圖之間的空間和幾何關係，無需顯式的外部對齊。
圖像 - 姿態雙流擴散模型：同時生成目標新視圖和條件相機姿態。
幾何感知特徵對齊模塊：在訓練期間從密集立體模型中提取幾何先驗。
性能卓越：在生成式多視圖NVS任務中達到了最先進的性能，提高了合成質量，尤其是在未定位輸入視圖數量增加時。

📚 詳細文檔

摘要

生成模型的最新進展顯著改善了從多視圖數據進行新視圖合成（NVS）的效果。然而，現有方法依賴外部多視圖對齊過程，如顯式姿態估計或預重建，這限制了它們的靈活性和易用性，特別是當由於視圖之間的重疊不足或遮擋導致對齊不穩定時。在本文中，我們提出了NVComposer，一種無需顯式外部對齊的新方法。NVComposer通過引入兩個關鍵組件，使生成模型能夠隱式推斷多個條件視圖之間的空間和幾何關係：1）一個圖像 - 姿態雙流擴散模型，同時生成目標新視圖和條件相機姿態；2）一個幾何感知特徵對齊模塊，在訓練期間從密集立體模型中提取幾何先驗。大量實驗表明，NVComposer在生成式多視圖NVS任務中達到了最先進的性能，消除了對外部對齊的依賴，從而提高了模型的易用性。我們的方法在未定位輸入視圖數量增加時，合成質量有顯著提高，凸顯了其在更靈活和易用的生成式NVS系統中的潛力。

方法

NVComposer包含：

一個圖像 - 姿態雙流擴散模型，在生成新視圖的同時隱式估計條件圖像的相機姿態。
一個幾何感知特徵對齊適配器，使用從預訓練的密集立體模型中提取的幾何先驗。

模型架構

📄 許可證

本項目採用其他許可證。