Shap - E开源文本生成3D图像模型 - 依文本提示轻松打造3D资产

首页

Shap E

由 openai 开发

Shap-E是一种基于扩散过程的文本生成3D图像模型，能够根据文本提示生成可渲染为纹理网格和神经辐射场的3D资产。

3D视觉开源协议:MIT #文本生成3D #多表示输出 #快速3D建模

下载量 6,109

发布时间 : 7/4/2023

模型简介

Shap-E是一种条件式生成模型，通过两阶段训练过程直接生成3D隐式函数参数，支持从文本或图像生成复杂多样的3D内容。

模型特点

多表示输出

直接生成可渲染为纹理网格和神经辐射场的隐式函数参数，支持多种3D表示形式。

高效生成

相比基于点云的显式生成模型Point-E，收敛更快且能达到相当或更优的样本质量。

条件生成

支持通过文本提示或输入图像作为条件生成3D内容，具有高度可控性。

模型能力

文本生成3D模型

图像到3D转换

生成纹理网格

生成神经辐射场

使用案例

3D内容创作

游戏资产生成

根据文本描述快速生成游戏中的3D模型和场景元素。

可在数秒内生成复杂多样的3D资产

产品设计原型

通过自然语言描述快速生成产品设计的3D原型。

教育可视化

科学概念演示

将抽象的科学概念转化为直观的3D可视化模型。

🚀 Shap-E

Shap-E引入了一种扩散过程，能够根据文本提示生成3D图像。它由OpenAI的Heewoo Jun和Alex Nichol在论文Shap-E: Generating Conditional 3D Implicit Functions中提出。

Shap-E的原始仓库地址为：https://github.com/openai/shap-e 。

Shap-E的作者并未撰写此模型卡片。他们在此处提供了单独的模型卡片。

🚀 快速开始

Shap-E引入了一种扩散过程，能根据文本提示生成3D图像。它由OpenAI的研究人员提出，相关论文可查看Shap-E: Generating Conditional 3D Implicit Functions 。

✨ 主要特性

可根据文本提示生成3D图像。
直接生成隐式函数的参数，可渲染为纹理网格和神经辐射场。
训练分两个阶段，能在数秒内生成复杂多样的3D资产。

📦 安装指南

首先确保你已安装所有依赖项：

pip install transformers accelerate -q
pip install git+https://github.com/huggingface/diffusers@@shap-ee

💻 使用示例

基础用法

import torch
from diffusers import ShapEPipeline
from diffusers.utils import export_to_gif

ckpt_id = "openai/shap-e"
pipe = ShapEPipeline.from_pretrained(repo).to("cuda")

guidance_scale = 15.0
prompt = "a shark"
images = pipe(
    prompt,
    guidance_scale=guidance_scale,
    num_inference_steps=64,
    size=256,
).images

gif_path = export_to_gif(images, "shark_3d.gif")

📚 详细文档

发布的检查点

作者发布了以下检查点：

openai/shap-e：根据文本输入提示生成3D图像。
openai/shap-e-img2img：从合成2D图像中采样3D图像。

结果展示

示例	图片
鸟
鲨鱼
一碗蔬菜

训练细节

请参考原始论文。

已知限制和潜在偏差

请参考原始模型卡片。

🔧 技术细节

Shap-E论文摘要：我们提出了Shap-E，一种用于3D资产的条件生成模型。与最近在3D生成模型上的工作不同，后者产生单一输出表示，Shap-E直接生成隐式函数的参数，这些参数可以渲染为纹理网格和神经辐射场。我们分两个阶段训练Shap-E：首先，我们训练一个编码器，将3D资产确定性地映射到隐式函数的参数中；其次，我们在编码器的输出上训练一个条件扩散模型。当在大量配对的3D和文本数据上进行训练时，我们得到的模型能够在数秒内生成复杂多样的3D资产。与Point-E（一种基于点云的显式生成模型）相比，Shap-E收敛更快，并且尽管对更高维、多表示输出空间进行建模，但仍能达到相当或更好的样本质量。我们在此URL发布了模型权重、推理代码和样本。

📄 许可证

本项目采用MIT许可证。

📖 引用

@misc{jun2023shape,
      title={Shap-E: Generating Conditional 3D Implicit Functions}, 
      author={Heewoo Jun and Alex Nichol},
      year={2023},
      eprint={2305.02463},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}