VFusion3Dオープンソース3D生成モデル - 少量のデータを利用した効率的な3D生成と再構築

ホーム

Vfusion3d

facebookによって開発

VFusion3Dは少量の3Dデータと大量の合成マルチビューデータでトレーニングされた大規模フィードフォワード型3D生成モデルで、スケーラブルな3D生成/再構築モデルを研究した最初の仕事です。

3Dビジョン

Transformers

#ビデオから3D生成 #マルチビュー合成 #3D基礎モデル

ダウンロード数 57

リリース時間 : 8/10/2024

モデル概要

ビデオ拡散モデルに基づくスケーラブルな3D生成モデルで、3D生成と再構築タスクに使用されます。

モデル特徴

スケーラブル3D生成

少量の3Dデータと大量の合成マルチビューデータでトレーニングし、スケーラブルな3D生成を実現

フィードフォワードアーキテクチャ

フィードフォワードアーキテクチャを採用し、従来の方法よりも効率的

ビデオ拡散モデル基盤

ビデオ拡散モデルに基づいて構築され、時系列情報を十分に活用

モデル能力

3Dモデル生成

3D再構築

マルチビュー合成

使用事例

3Dコンテンツ作成

3Dアセット生成

単一画像から3Dモデルを生成

高品質な3Dモデルを生成可能

仮想現実

VRシーン構築

3Dシーン要素を迅速に生成

VRコンテンツ開発プロセスを加速

🚀 [ECCV 2024] VFusion3D: ビデオ拡散モデルから拡張可能な3D生成モデルを学習する

VFusion3Dは、少量の3Dデータと大量の合成多視点データを用いて学習された大規模なフィードフォワード型の3D生成モデルです。これは、3D基盤への一歩として、拡張可能な3D生成/再構築モデルを探索する最初の研究です。

プロジェクトページ、論文リンク

VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models
Junlin Han, Filippos Kokkinos, Philip Torr
GenAI, Meta and TVG, University of Oxford
European Conference on Computer Vision (ECCV), 2024

🚀 クイックスタート

VFusion3Dの使用を始めるのはとても簡単です！🤗 以下は、Hugging Faceを使ってこのモデルを使用する方法です。

依存関係のインストール (オプション)

必要に応じて、メッシュ生成やビデオレンダリングなどの特定の機能を有効にすることができます。以下の追加パッケージをインストールすることで対応できます。

!pip --quiet install imageio[ffmpeg] PyMCubes trimesh rembg[gpu,cli] kiui

モデルの直接読み込み

import torch
from transformers import AutoModel, AutoProcessor

# モデルとプロセッサを読み込む
model = AutoModel.from_pretrained("jadechoghari/vfusion3d", trust_remote_code=True)
processor = AutoProcessor.from_pretrained("jadechoghari/vfusion3d")

# 画像をダウンロードして前処理する
import requests
from PIL import Image
from io import BytesIO

image_url = 'https://sm.ign.com/ign_nordic/cover/a/avatar-gen/avatar-generations_prsz.jpg'
response = requests.get(image_url)
image = Image.open(BytesIO(response.content))

# 画像を前処理してソースカメラを取得する
image, source_camera = processor(image)


# 平面を生成する (デフォルト出力)
output_planes = model(image, source_camera)
print("Planes shape:", output_planes.shape)

# 3Dメッシュを生成する
output_planes, mesh_path = model(image, source_camera, export_mesh=True)
print("Planes shape:", output_planes.shape)
print("Mesh saved at:", mesh_path)

# ビデオを生成する
output_planes, video_path = model(image, source_camera, export_video=True)
print("Planes shape:", output_planes.shape)
print("Video saved at:", video_path)

デフォルト (平面): デフォルトでは、VFusion3Dは平面を出力します。これは、さらなる3D操作に最適です。
メッシュのエクスポート: 3Dメッシュが必要な場合は、export_mesh=Trueに設定するだけで、.objファイルが生成されます。mesh_sizeパラメータを調整することで、メッシュの解像度をカスタマイズすることもできます。
ビデオのエクスポート: 3Dビデオが必要な場合は、export_video=Trueに設定することで、複数の角度から美しくレンダリングされたビデオが生成されます。render_sizeとfpsを調整することで、ビデオを最適化することができます。

デモアプリをチェックして、VFusion3Dの動作を確認してみてください！🤗

✨ 主な機能

3D生成結果

ユーザー調査結果

🔗 謝辞

VFusion3Dの推論コードは、OpenLRMを大幅に参考にしています。

📚 引用

この研究が役に立った場合は、以下のように引用してください。

@article{han2024vfusion3d,
  title={VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models},
  author={Junlin Han and Filippos Kokkinos and Philip Torr},
  journal={European Conference on Computer Vision (ECCV)},
  year={2024}
}

📄 ライセンス

VFusion3Dの大部分はCC - BY - NCライセンスの下で提供されていますが、プロジェクトの一部は別のライセンス条項の下で利用可能です。OpenLRM全体はApache License, Version 2.0の下でライセンスされており、特定のコンポーネントはNVIDIAの独自ライセンスによってカバーされています。
VFusion3DのモデルウェイトもCC - BY - NCライセンスの下で提供されています。