🚀 Shap-E
Shap-E引入了一种扩散过程,能够根据文本提示生成3D图像。它由OpenAI的Heewoo Jun和Alex Nichol在论文Shap-E: Generating Conditional 3D Implicit Functions中提出。
Shap-E的原始仓库地址为:https://github.com/openai/shap-e 。
Shap-E的作者并未撰写此模型卡片。他们在此处提供了单独的模型卡片。
🚀 快速开始
Shap-E引入了一种扩散过程,能根据文本提示生成3D图像。它由OpenAI的研究人员提出,相关论文可查看Shap-E: Generating Conditional 3D Implicit Functions 。
✨ 主要特性
- 可根据文本提示生成3D图像。
- 直接生成隐式函数的参数,可渲染为纹理网格和神经辐射场。
- 训练分两个阶段,能在数秒内生成复杂多样的3D资产。
📦 安装指南
首先确保你已安装所有依赖项:
pip install transformers accelerate -q
pip install git+https://github.com/huggingface/diffusers@@shap-ee
💻 使用示例
基础用法
import torch
from diffusers import ShapEPipeline
from diffusers.utils import export_to_gif
ckpt_id = "openai/shap-e"
pipe = ShapEPipeline.from_pretrained(repo).to("cuda")
guidance_scale = 15.0
prompt = "a shark"
images = pipe(
prompt,
guidance_scale=guidance_scale,
num_inference_steps=64,
size=256,
).images
gif_path = export_to_gif(images, "shark_3d.gif")
📚 详细文档
发布的检查点
作者发布了以下检查点:
结果展示
训练细节
请参考原始论文。
已知限制和潜在偏差
请参考原始模型卡片。
🔧 技术细节
Shap-E论文摘要:
我们提出了Shap-E,一种用于3D资产的条件生成模型。与最近在3D生成模型上的工作不同,后者产生单一输出表示,Shap-E直接生成隐式函数的参数,这些参数可以渲染为纹理网格和神经辐射场。我们分两个阶段训练Shap-E:首先,我们训练一个编码器,将3D资产确定性地映射到隐式函数的参数中;其次,我们在编码器的输出上训练一个条件扩散模型。当在大量配对的3D和文本数据上进行训练时,我们得到的模型能够在数秒内生成复杂多样的3D资产。与Point-E(一种基于点云的显式生成模型)相比,Shap-E收敛更快,并且尽管对更高维、多表示输出空间进行建模,但仍能达到相当或更好的样本质量。我们在此URL发布了模型权重、推理代码和样本。
📄 许可证
本项目采用MIT许可证。
📖 引用
@misc{jun2023shape,
title={Shap-E: Generating Conditional 3D Implicit Functions},
author={Heewoo Jun and Alex Nichol},
year={2023},
eprint={2305.02463},
archivePrefix={arXiv},
primaryClass={cs.CV}
}