🚀 [ECCV 2024] VFusion3D: ビデオ拡散モデルから拡張可能な3D生成モデルを学習する
VFusion3Dは、少量の3Dデータと大量の合成多視点データを用いて学習された大規模なフィードフォワード型の3D生成モデルです。これは、3D基盤モデルへの一歩として、拡張可能な3D生成/再構築モデルを探索する最初の研究です。
プロジェクトページ、論文リンク
VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models
Junlin Han、Filippos Kokkinos、Philip Torr
GenAI、MetaおよびTVG、オックスフォード大学
European Conference on Computer Vision (ECCV)、2024
🚀 クイックスタート
VFusion3Dを使い始めるのはとても簡単です!🤗 以下は、Hugging Faceを使ってモデルを使用する方法です。
依存関係のインストール (オプション)
必要に応じて、メッシュ生成やビデオレンダリングなどの特定の機能を有効にすることができます。以下の追加パッケージをインストールすることで対応できます。
!pip --quiet install imageio[ffmpeg] PyMCubes trimesh rembg[gpu,cli] kiui
モデルを直接ロードする
import torch
from transformers import AutoModel, AutoProcessor
model = AutoModel.from_pretrained("jadechoghari/vfusion3d", trust_remote_code=True)
processor = AutoProcessor.from_pretrained("jadechoghari/vfusion3d")
import requests
from PIL import Image
from io import BytesIO
image_url = 'https://sm.ign.com/ign_nordic/cover/a/avatar-gen/avatar-generations_prsz.jpg'
response = requests.get(image_url)
image = Image.open(BytesIO(response.content))
image, source_camera = processor(image)
output_planes = model(image, source_camera)
print("Planes shape:", output_planes.shape)
output_planes, mesh_path = model(image, source_camera, export_mesh=True)
print("Planes shape:", output_planes.shape)
print("Mesh saved at:", mesh_path)
output_planes, video_path = model(image, source_camera, export_video=True)
print("Planes shape:", output_planes.shape)
print("Video saved at:", video_path)
- デフォルト (平面): デフォルトでは、VFusion3Dは平面を出力します。これは、さらなる3D操作に最適です。
- メッシュをエクスポートする: 3Dメッシュが必要な場合は、
export_mesh=True
に設定するだけで、.obj
ファイルが生成されます。mesh_size
パラメータを調整することで、メッシュの解像度をカスタマイズすることもできます。
- ビデオをエクスポートする: 3Dビデオが必要な場合は、
export_video=True
に設定すると、複数の角度から美しくレンダリングされたビデオが生成されます。render_size
とfps
を調整することで、ビデオを最適化することができます。
デモアプリをチェックして、VFusion3Dの動作を確認してみてください!🤗
✨ 主な機能
3D生成結果
ユーザー調査結果
謝辞
- VFusion3Dの推論コードは、OpenLRMを大いに参考にしています。
引用
この研究が役に立った場合は、以下のように引用してください。
@article{han2024vfusion3d,
title={VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models},
author={Junlin Han and Filippos Kokkinos and Philip Torr},
journal={European Conference on Computer Vision (ECCV)},
year={2024}
}
📄 ライセンス
- VFusion3Dの大部分はCC - BY - NCライセンスでライセンスされていますが、プロジェクトの一部は別のライセンス条項の対象となっています。OpenLRM全体はApache License, Version 2.0でライセンスされており、特定のコンポーネントはNVIDIAの独自ライセンスの対象となっています。
- VFusion3DのモデルウェイトもCC - BY - NCライセンスでライセンスされています。