🚀 Shap-E
Shap-E引入了一種擴散過程,能夠根據文本提示生成3D圖像。它由OpenAI的Heewoo Jun和Alex Nichol在論文Shap-E: Generating Conditional 3D Implicit Functions中提出。
Shap-E的原始倉庫地址為:https://github.com/openai/shap-e 。
Shap-E的作者並未撰寫此模型卡片。他們在此處提供了單獨的模型卡片。
🚀 快速開始
Shap-E引入了一種擴散過程,能根據文本提示生成3D圖像。它由OpenAI的研究人員提出,相關論文可查看Shap-E: Generating Conditional 3D Implicit Functions 。
✨ 主要特性
- 可根據文本提示生成3D圖像。
- 直接生成隱式函數的參數,可渲染為紋理網格和神經輻射場。
- 訓練分兩個階段,能在數秒內生成複雜多樣的3D資產。
📦 安裝指南
首先確保你已安裝所有依賴項:
pip install transformers accelerate -q
pip install git+https://github.com/huggingface/diffusers@@shap-ee
💻 使用示例
基礎用法
import torch
from diffusers import ShapEPipeline
from diffusers.utils import export_to_gif
ckpt_id = "openai/shap-e"
pipe = ShapEPipeline.from_pretrained(repo).to("cuda")
guidance_scale = 15.0
prompt = "a shark"
images = pipe(
prompt,
guidance_scale=guidance_scale,
num_inference_steps=64,
size=256,
).images
gif_path = export_to_gif(images, "shark_3d.gif")
📚 詳細文檔
發佈的檢查點
作者發佈了以下檢查點:
結果展示
訓練細節
請參考原始論文。
已知限制和潛在偏差
請參考原始模型卡片。
🔧 技術細節
Shap-E論文摘要:
我們提出了Shap-E,一種用於3D資產的條件生成模型。與最近在3D生成模型上的工作不同,後者產生單一輸出表示,Shap-E直接生成隱式函數的參數,這些參數可以渲染為紋理網格和神經輻射場。我們分兩個階段訓練Shap-E:首先,我們訓練一個編碼器,將3D資產確定性地映射到隱式函數的參數中;其次,我們在編碼器的輸出上訓練一個條件擴散模型。當在大量配對的3D和文本數據上進行訓練時,我們得到的模型能夠在數秒內生成複雜多樣的3D資產。與Point-E(一種基於點雲的顯式生成模型)相比,Shap-E收斂更快,並且儘管對更高維、多表示輸出空間進行建模,但仍能達到相當或更好的樣本質量。我們在此URL發佈了模型權重、推理代碼和樣本。
📄 許可證
本項目採用MIT許可證。
📖 引用
@misc{jun2023shape,
title={Shap-E: Generating Conditional 3D Implicit Functions},
author={Heewoo Jun and Alex Nichol},
year={2023},
eprint={2305.02463},
archivePrefix={arXiv},
primaryClass={cs.CV}
}