vfusion3d开源3D生成模型 - 用少量3D数据实现可扩展3D生成与重建

首页

Vfusion3d

由 jadechoghari 开发

VFusion3D是一个大型前馈式3D生成模型，通过少量3D数据和大量合成多视角数据进行训练，探索可扩展的3D生成/重建模型。

3D视觉

Transformers

#视频转3D #多视角合成 #可扩展3D生成

下载量 249

发布时间 : 7/31/2024

模型简介

VFusion3D是从视频扩散模型中学习的大型3D生成模型，支持从单张图像生成3D内容，为构建3D基础模型迈出了重要一步。

模型特点

可扩展的3D生成

通过少量3D数据和大量合成多视角数据进行训练，实现可扩展的3D生成能力

多格式输出

支持输出3D平面数据、网格文件(.obj)和多视角渲染视频

高效推理

前馈式架构实现快速3D内容生成

模型能力

单图3D重建

3D网格生成

多视角视频渲染

3D内容生成

使用案例

3D内容创作

虚拟角色建模

从单张角色图像生成3D模型

可生成可编辑的3D网格和旋转展示视频

产品展示

将产品照片转换为3D模型

支持多角度查看产品细节

游戏开发

快速原型设计

为游戏快速生成3D资产

缩短3D建模流程

🚀 [ECCV 2024] VFusion3D：从视频扩散模型中学习可扩展的3D生成模型

VFusion3D是一个大型前馈3D生成模型，它利用少量3D数据和大量合成多视图数据进行训练。该工作首次探索了可扩展的3D生成/重建模型，是迈向3D基础模型的重要一步。

🚀 快速开始

使用VFusion3D非常简单！🤗 以下是如何通过Hugging Face使用该模型的步骤：

📦 安装依赖（可选）

根据你的需求，你可能希望启用特定功能，如网格生成或视频渲染。我们为你提供了这些额外的包：

!pip --quiet install imageio[ffmpeg] PyMCubes trimesh rembg[gpu,cli] kiui

💻 使用示例

基础用法

import torch
from transformers import AutoModel, AutoProcessor

# load the model and processor
model = AutoModel.from_pretrained("jadechoghari/vfusion3d", trust_remote_code=True)
processor = AutoProcessor.from_pretrained("jadechoghari/vfusion3d")

# download and preprocess the image
import requests
from PIL import Image
from io import BytesIO

image_url = 'https://sm.ign.com/ign_nordic/cover/a/avatar-gen/avatar-generations_prsz.jpg'
response = requests.get(image_url)
image = Image.open(BytesIO(response.content))

# preprocess the image and get the source camera 
image, source_camera = processor(image)


# generate planes (default output)
output_planes = model(image, source_camera)
print("Planes shape:", output_planes.shape)

# generate a 3D mesh
output_planes, mesh_path = model(image, source_camera, export_mesh=True)
print("Planes shape:", output_planes.shape)
print("Mesh saved at:", mesh_path)

# Generate a video
output_planes, video_path = model(image, source_camera, export_video=True)
print("Planes shape:", output_planes.shape)
print("Video saved at:", video_path)

默认输出（平面）：默认情况下，VFusion3D输出平面，非常适合进一步的3D操作。
导出网格：如果你需要一个3D网格，只需将export_mesh设置为True，你将得到一个.obj文件。你还可以通过调整mesh_size参数来自定义网格分辨率。
导出视频：如果你想要一个3D视频，将export_video设置为True，你将获得一个从多个角度渲染的精美视频。你可以调整render_size和fps来优化视频效果。

快来查看我们的演示应用，看看VFusion3D的实际效果！🤗

✨ 主要特性

数据高效利用：利用少量3D数据和大量合成多视图数据进行训练。
多模态输出：支持输出平面、3D网格和3D视频。

📚 详细文档

结果与比较

3D生成结果

3D生成结果1 3D生成结果2

用户研究结果

致谢

VFusion3D的推理代码大量借鉴了OpenLRM。

引用

如果你觉得这项工作有用，请引用我们：

@article{han2024vfusion3d,
  title={VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models},
  author={Junlin Han and Filippos Kokkinos and Philip Torr},
  journal={European Conference on Computer Vision (ECCV)},
  year={2024}
}