NVComposerオープンソースモデル - 外部アライメント不要で、高品質な3Dビューを無料で生成可能

ホーム

Nvcomposer

TencentARCによって開発

NVComposerは明示的な外部アライメントを必要としない生成的マルチビュー新視点合成モデルで、画像-姿勢デュアルストリーム拡散と幾何認識特徴アライメントにより高品質な3Dビュー生成を実現します。

3Dビジョン英語オープンソースライセンス:その他 #画像から3D生成 #姿勢推定不要な新視点合成 #幾何認識特徴アライメント

ダウンロード数 93

リリース時間 : 12/6/2024

モデル概要

このモデルはターゲットの新視点と条件付きカメラ姿勢を同期生成し、幾何認識特徴アライメントモジュールと組み合わせることで、マルチビュー新視点合成の品質と柔軟性を大幅に向上させます。

モデル特徴

外部アライメント依存なし

デュアルストリーム拡散モデルにより画像とカメラ姿勢を同期生成、明示的な姿勢推定や事前再構築プロセスが不要

幾何認識特徴アライメント

事前学習済み高密度ステレオモデルから幾何事前情報を抽出し、特徴アライメント効果を強化

マルチビュー互換性

ビュー間の重なり不足やオクルージョンが存在する場合でも安定した性能を維持

モデル能力

単一画像からの3Dビュー生成

マルチビュー画像合成

カメラ姿勢推定

幾何特徴抽出

使用事例

3Dコンテンツ制作

仮想シーン構築

単一または複数画像から完全な3Dシーンを生成

高品質でマルチビュー一貫性のある3Dビューを生成可能

拡張現実アプリケーション

ARアプリ向けに3Dオブジェクトビューを迅速生成

新視点をリアルタイム生成する能力がARシーン要件に適合

映像特殊効果

視点拡張

限られた撮影素材から追加視点を生成

実際の撮影作業量を削減しつつ視覚的一貫性を維持

🚀 NVComposer

NVComposerは、画像から3Dを生成する新しいアプローチです。外部の多視点アライメントプロセスを必要とせず、柔軟性とアクセシビリティを向上させます。

🚀 クイックスタート

NVComposerを始めるには、以下の手順に従ってください。

モデルのダウンロード

huggingface_hubを使用してモデルのチェックポイントをダウンロードします（バージョン0.1を例として）。

from huggingface_hub import hf_hub_download

checkpoint_path = hf_hub_download(
    repo_id="TencentARC/NVComposer",
    filename="NVComposer-V0.1.ckpt"
)

ダウンロードしたチェックポイントファイルはcheckpoint_pathに保存されます。

デモの試用

ここでデモを試すことができます。

✨ 主な機能

外部の多視点アライメントプロセスを必要とせず、柔軟性とアクセシビリティを向上させます。
画像 - 姿勢のデュアルストリーム拡散モデルを使用して、新しい視点を生成しながら条件付き画像のカメラ姿勢を暗黙的に推定します。
幾何学的事前知識を利用した特徴アライメントアダプタを使用して、合成品質を向上させます。

📚 ドキュメント

概要

最近の生成モデルの進歩により、多視点データからの新しい視点合成（NVS）が大幅に改善されました。しかし、既存の方法は明示的な姿勢推定や事前再構築などの外部の多視点アライメントプロセスに依存しており、柔軟性とアクセシビリティが制限されています。特に、視点間の重複が不十分または遮蔽があるためにアライメントが不安定な場合に影響が大きくなります。

この論文では、明示的な外部アライメントを必要としない新しいアプローチであるNVComposerを提案します。NVComposerは、2つの重要なコンポーネントを導入することで、生成モデルが複数の条件付き視点間の空間的および幾何学的関係を暗黙的に推論できるようにします。

新しい視点と条件付きカメラ姿勢を同時に生成する画像 - 姿勢デュアルストリーム拡散モデル。
訓練中に事前学習された密なステレオモデルから幾何学的事前知識を抽出する幾何学的特徴アライメントモジュール。

多数の実験により、NVComposerは生成的多視点NVSタスクにおいて最先端の性能を達成し、外部アライメントへの依存を排除し、モデルのアクセシビリティを向上させることが示されました。入力視点の数が増えるにつれて合成品質が大幅に向上することから、より柔軟でアクセスしやすい生成的NVSシステムの可能性が示されています。

コード

コードについては、GitHubリポジトリを確認してください。

モデル

上述の通り、huggingface_hubを使用してモデルのチェックポイントをダウンロードできます。

ビデオ

プロジェクトページで紹介ビデオを見ることができます。

方法

NVComposerは以下の2つの主要なコンポーネントで構成されています。

新しい視点を生成しながら条件付き画像のカメラ姿勢を暗黙的に推定する画像 - 姿勢のデュアルストリーム拡散モデル。
事前学習された密なステレオモデルから抽出された幾何学的事前知識を利用する幾何学的特徴アライメントアダプタ。

📄 ライセンス

ライセンスはotherです。