vfusion3dオープンソース3D生成モデル - 少量の3Dデータで拡張可能な3D生成と再構築を実現

ホーム

Vfusion3d

jadechoghariによって開発

VFusion3Dは、少量の3Dデータと大量の合成マルチビューデータでトレーニングされた大規模なフィードフォワード型3D生成モデルで、スケーラブルな3D生成/再構築モデルを探求しています。

3Dビジョン

Transformers

#ビデオから3Dへ #マルチビュー合成 #スケーラブルな3D生成

ダウンロード数 249

リリース時間 : 7/31/2024

モデル概要

VFusion3Dは、ビデオ拡散モデルから学習した大規模な3D生成モデルで、単一画像から3Dコンテンツを生成することをサポートし、3D基礎モデルの構築に向けた重要な一歩です。

モデル特徴

スケーラブルな3D生成

少量の3Dデータと大量の合成マルチビューデータでトレーニングし、スケーラブルな3D生成能力を実現

マルチフォーマット出力

3D平面データ、メッシュファイル(.obj)、マルチビューレンダリング動画の出力をサポート

効率的な推論

フィードフォワードアーキテクチャにより高速な3Dコンテンツ生成を実現

モデル能力

単一画像3D再構築

3Dメッシュ生成

マルチビュービデオレンダリング

3Dコンテンツ生成

使用事例

3Dコンテンツ作成

バーチャルキャラクターモデリング

単一のキャラクター画像から3Dモデルを生成

編集可能な3Dメッシュと回転表示動画を生成可能

製品展示

製品写真を3Dモデルに変換

複数の角度から製品の詳細を確認可能

ゲーム開発

迅速なプロトタイピング

ゲーム用の3Dアセットを迅速に生成

3Dモデリングプロセスを短縮

🚀 [ECCV 2024] VFusion3D: ビデオ拡散モデルから拡張可能な3D生成モデルを学習する

VFusion3Dは、少量の3Dデータと大量の合成多視点データを用いて学習された大規模なフィードフォワード型の3D生成モデルです。これは、3D基盤モデルへの一歩として、拡張可能な3D生成/再構築モデルを探索する最初の研究です。

プロジェクトページ、論文リンク

VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models
Junlin Han、Filippos Kokkinos、Philip Torr
GenAI、MetaおよびTVG、オックスフォード大学
European Conference on Computer Vision (ECCV)、2024

🚀 クイックスタート

VFusion3Dを使い始めるのはとても簡単です！🤗 以下は、Hugging Faceを使ってモデルを使用する方法です。

依存関係のインストール (オプション)

必要に応じて、メッシュ生成やビデオレンダリングなどの特定の機能を有効にすることができます。以下の追加パッケージをインストールすることで対応できます。

!pip --quiet install imageio[ffmpeg] PyMCubes trimesh rembg[gpu,cli] kiui

モデルを直接ロードする

import torch
from transformers import AutoModel, AutoProcessor

# モデルとプロセッサをロードする
model = AutoModel.from_pretrained("jadechoghari/vfusion3d", trust_remote_code=True)
processor = AutoProcessor.from_pretrained("jadechoghari/vfusion3d")

# 画像をダウンロードして前処理する
import requests
from PIL import Image
from io import BytesIO

image_url = 'https://sm.ign.com/ign_nordic/cover/a/avatar-gen/avatar-generations_prsz.jpg'
response = requests.get(image_url)
image = Image.open(BytesIO(response.content))

# 画像を前処理し、ソースカメラを取得する
image, source_camera = processor(image)

# 平面を生成する (デフォルト出力)
output_planes = model(image, source_camera)
print("Planes shape:", output_planes.shape)

# 3Dメッシュを生成する
output_planes, mesh_path = model(image, source_camera, export_mesh=True)
print("Planes shape:", output_planes.shape)
print("Mesh saved at:", mesh_path)

# ビデオを生成する
output_planes, video_path = model(image, source_camera, export_video=True)
print("Planes shape:", output_planes.shape)
print("Video saved at:", video_path)

デフォルト (平面): デフォルトでは、VFusion3Dは平面を出力します。これは、さらなる3D操作に最適です。
メッシュをエクスポートする: 3Dメッシュが必要な場合は、export_mesh=Trueに設定するだけで、.objファイルが生成されます。mesh_sizeパラメータを調整することで、メッシュの解像度をカスタマイズすることもできます。
ビデオをエクスポートする: 3Dビデオが必要な場合は、export_video=Trueに設定すると、複数の角度から美しくレンダリングされたビデオが生成されます。render_sizeとfpsを調整することで、ビデオを最適化することができます。

デモアプリをチェックして、VFusion3Dの動作を確認してみてください！🤗

✨ 主な機能

3D生成結果

ユーザー調査結果

謝辞

VFusion3Dの推論コードは、OpenLRMを大いに参考にしています。

引用

この研究が役に立った場合は、以下のように引用してください。

@article{han2024vfusion3d,
  title={VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models},
  author={Junlin Han and Filippos Kokkinos and Philip Torr},
  journal={European Conference on Computer Vision (ECCV)},
  year={2024}
}

📄 ライセンス

VFusion3Dの大部分はCC - BY - NCライセンスでライセンスされていますが、プロジェクトの一部は別のライセンス条項の対象となっています。OpenLRM全体はApache License, Version 2.0でライセンスされており、特定のコンポーネントはNVIDIAの独自ライセンスの対象となっています。
VFusion3DのモデルウェイトもCC - BY - NCライセンスでライセンスされています。