Shap - E開源文本生成3D圖像模型 - 依文本提示輕鬆打造3D資產

首頁

Shap E

由openai開發

Shap-E是一種基於擴散過程的文本生成3D圖像模型，能夠根據文本提示生成可渲染為紋理網格和神經輻射場的3D資產。

3D視覺開源協議:MIT #文本生成3D #多表示輸出 #快速3D建模

下載量 6,109

發布時間 : 7/4/2023

模型概述

Shap-E是一種條件式生成模型，通過兩階段訓練過程直接生成3D隱式函數參數，支持從文本或圖像生成複雜多樣的3D內容。

模型特點

多表示輸出

直接生成可渲染為紋理網格和神經輻射場的隱式函數參數，支持多種3D表示形式。

高效生成

相比基於點雲的顯式生成模型Point-E，收斂更快且能達到相當或更優的樣本質量。

條件生成

支持通過文本提示或輸入圖像作為條件生成3D內容，具有高度可控性。

模型能力

文本生成3D模型

圖像到3D轉換

生成紋理網格

生成神經輻射場

使用案例

3D內容創作

遊戲資產生成

根據文本描述快速生成遊戲中的3D模型和場景元素。

可在數秒內生成複雜多樣的3D資產

產品設計原型

通過自然語言描述快速生成產品設計的3D原型。

教育可視化

科學概念演示

將抽象的科學概念轉化為直觀的3D可視化模型。

🚀 Shap-E

Shap-E引入了一種擴散過程，能夠根據文本提示生成3D圖像。它由OpenAI的Heewoo Jun和Alex Nichol在論文Shap-E: Generating Conditional 3D Implicit Functions中提出。

Shap-E的原始倉庫地址為：https://github.com/openai/shap-e 。

Shap-E的作者並未撰寫此模型卡片。他們在此處提供了單獨的模型卡片。

🚀 快速開始

Shap-E引入了一種擴散過程，能根據文本提示生成3D圖像。它由OpenAI的研究人員提出，相關論文可查看Shap-E: Generating Conditional 3D Implicit Functions 。

✨ 主要特性

可根據文本提示生成3D圖像。
直接生成隱式函數的參數，可渲染為紋理網格和神經輻射場。
訓練分兩個階段，能在數秒內生成複雜多樣的3D資產。

📦 安裝指南

首先確保你已安裝所有依賴項：

pip install transformers accelerate -q
pip install git+https://github.com/huggingface/diffusers@@shap-ee

💻 使用示例

基礎用法

import torch
from diffusers import ShapEPipeline
from diffusers.utils import export_to_gif

ckpt_id = "openai/shap-e"
pipe = ShapEPipeline.from_pretrained(repo).to("cuda")

guidance_scale = 15.0
prompt = "a shark"
images = pipe(
    prompt,
    guidance_scale=guidance_scale,
    num_inference_steps=64,
    size=256,
).images

gif_path = export_to_gif(images, "shark_3d.gif")

📚 詳細文檔

發佈的檢查點

作者發佈了以下檢查點：

openai/shap-e：根據文本輸入提示生成3D圖像。
openai/shap-e-img2img：從合成2D圖像中採樣3D圖像。

結果展示

示例	圖片
鳥
鯊魚
一碗蔬菜

訓練細節

請參考原始論文。

已知限制和潛在偏差

請參考原始模型卡片。

🔧 技術細節

Shap-E論文摘要：我們提出了Shap-E，一種用於3D資產的條件生成模型。與最近在3D生成模型上的工作不同，後者產生單一輸出表示，Shap-E直接生成隱式函數的參數，這些參數可以渲染為紋理網格和神經輻射場。我們分兩個階段訓練Shap-E：首先，我們訓練一個編碼器，將3D資產確定性地映射到隱式函數的參數中；其次，我們在編碼器的輸出上訓練一個條件擴散模型。當在大量配對的3D和文本數據上進行訓練時，我們得到的模型能夠在數秒內生成複雜多樣的3D資產。與Point-E（一種基於點雲的顯式生成模型）相比，Shap-E收斂更快，並且儘管對更高維、多表示輸出空間進行建模，但仍能達到相當或更好的樣本質量。我們在此URL發佈了模型權重、推理代碼和樣本。

📄 許可證

本項目採用MIT許可證。

📖 引用

@misc{jun2023shape,
      title={Shap-E: Generating Conditional 3D Implicit Functions}, 
      author={Heewoo Jun and Alex Nichol},
      year={2023},
      eprint={2305.02463},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}