🚀 [ECCV 2024] VFusion3D: ビデオ拡散モデルから拡張可能な3D生成モデルを学習する
VFusion3Dは、少量の3Dデータと大量の合成多視点データを用いて学習された大規模なフィードフォワード型の3D生成モデルです。これは、3D基盤への一歩として、拡張可能な3D生成/再構築モデルを探索する最初の研究です。
プロジェクトページ、論文リンク
VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models
Junlin Han, Filippos Kokkinos, Philip Torr
GenAI, Meta and TVG, University of Oxford
European Conference on Computer Vision (ECCV), 2024
🚀 クイックスタート
VFusion3Dの使用を始めるのはとても簡単です!🤗 以下は、Hugging Faceを使ってこのモデルを使用する方法です。
依存関係のインストール (オプション)
必要に応じて、メッシュ生成やビデオレンダリングなどの特定の機能を有効にすることができます。以下の追加パッケージをインストールすることで対応できます。
!pip --quiet install imageio[ffmpeg] PyMCubes trimesh rembg[gpu,cli] kiui
モデルの直接読み込み
import torch
from transformers import AutoModel, AutoProcessor
model = AutoModel.from_pretrained("jadechoghari/vfusion3d", trust_remote_code=True)
processor = AutoProcessor.from_pretrained("jadechoghari/vfusion3d")
import requests
from PIL import Image
from io import BytesIO
image_url = 'https://sm.ign.com/ign_nordic/cover/a/avatar-gen/avatar-generations_prsz.jpg'
response = requests.get(image_url)
image = Image.open(BytesIO(response.content))
image, source_camera = processor(image)
output_planes = model(image, source_camera)
print("Planes shape:", output_planes.shape)
output_planes, mesh_path = model(image, source_camera, export_mesh=True)
print("Planes shape:", output_planes.shape)
print("Mesh saved at:", mesh_path)
output_planes, video_path = model(image, source_camera, export_video=True)
print("Planes shape:", output_planes.shape)
print("Video saved at:", video_path)
- デフォルト (平面): デフォルトでは、VFusion3Dは平面を出力します。これは、さらなる3D操作に最適です。
- メッシュのエクスポート: 3Dメッシュが必要な場合は、
export_mesh=True
に設定するだけで、.obj
ファイルが生成されます。mesh_size
パラメータを調整することで、メッシュの解像度をカスタマイズすることもできます。
- ビデオのエクスポート: 3Dビデオが必要な場合は、
export_video=True
に設定することで、複数の角度から美しくレンダリングされたビデオが生成されます。render_size
とfps
を調整することで、ビデオを最適化することができます。
デモアプリをチェックして、VFusion3Dの動作を確認してみてください!🤗
✨ 主な機能
3D生成結果
ユーザー調査結果
🔗 謝辞
- VFusion3Dの推論コードは、OpenLRMを大幅に参考にしています。
📚 引用
この研究が役に立った場合は、以下のように引用してください。
@article{han2024vfusion3d,
title={VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models},
author={Junlin Han and Filippos Kokkinos and Philip Torr},
journal={European Conference on Computer Vision (ECCV)},
year={2024}
}
📄 ライセンス
- VFusion3Dの大部分はCC - BY - NCライセンスの下で提供されていますが、プロジェクトの一部は別のライセンス条項の下で利用可能です。OpenLRM全体はApache License, Version 2.0の下でライセンスされており、特定のコンポーネントはNVIDIAの独自ライセンスによってカバーされています。
- VFusion3DのモデルウェイトもCC - BY - NCライセンスの下で提供されています。
📢 ニュース
- [2024年8月8日] HFデモが利用可能になりました。これを可能にしてくれたJade Choghariに大きな感謝を申し上げます。
- [2024年7月25日] VFusion3Dの重みと推論コードを公開しました。