🚀 Shap-E
Shap-Eは、テキストプロンプトから3D画像を生成できる拡散プロセスを導入しています。これは、OpenAIのHeewoo JunとAlex NicholによるShap-E: Generating Conditional 3D Implicit Functionsで紹介されました。
Shap-Eのオリジナルリポジトリはこちらです: https://github.com/openai/shap-e 。
Shap-Eの著者はこのモデルカードを作成していません。彼らは別のモデルカードをこちらで提供しています。
🚀 クイックスタート
Shap-Eは、テキストプロンプトから3D画像を生成することができます。このモデルは、OpenAIによって開発され、論文「Shap-E: Generating Conditional 3D Implicit Functions」で紹介されました。
✨ 主な機能
- テキストプロンプトから3D画像を生成することができます。
- テクスチャ付きメッシュとニューラルラディアンスフィールドの両方としてレンダリングできる暗黙関数のパラメータを直接生成します。
📦 インストール
まず、すべての依存関係をインストールしてください。
pip install transformers accelerate -q
pip install git+https://github.com/huggingface/diffusers@@shap-ee
💻 使用例
基本的な使用法
依存関係をインストールしたら、以下のコードを使用してください。
import torch
from diffusers import ShapEPipeline
from diffusers.utils import export_to_gif
ckpt_id = "openai/shap-e"
pipe = ShapEPipeline.from_pretrained(repo).to("cuda")
guidance_scale = 15.0
prompt = "a shark"
images = pipe(
prompt,
guidance_scale=guidance_scale,
num_inference_steps=64,
size=256,
).images
gif_path = export_to_gif(images, "shark_3d.gif")
📚 ドキュメント
公開されたチェックポイント
著者らは以下のチェックポイントを公開しています。
結果
トレーニングの詳細
詳細は元論文を参照してください。
既知の制限事項と潜在的なバイアス
詳細は元のモデルカードを参照してください。
🔧 技術詳細
Shap-Eの論文の概要は以下の通りです。
We present Shap-E, a conditional generative model for 3D assets. Unlike recent work on 3D generative models which produce a single output representation, Shap-E directly generates the parameters of implicit functions that can be rendered as both textured meshes and neural radiance fields. We train Shap-E in two stages: first, we train an encoder that deterministically maps 3D assets into the parameters of an implicit function; second, we train a conditional diffusion model on outputs of the encoder. When trained on a large dataset of paired 3D and text data, our resulting models are capable of generating complex and diverse 3D assets in a matter of seconds. When compared to Point-E, an explicit generative model over point clouds, Shap-E converges faster and reaches comparable or better sample quality despite modeling a higher-dimensional, multi-representation output space. We release model weights, inference code, and samples at this https URL.
📄 ライセンス
このモデルはMITライセンスの下で公開されています。
📄 引用
@misc{jun2023shape,
title={Shap-E: Generating Conditional 3D Implicit Functions},
author={Heewoo Jun and Alex Nichol},
year={2023},
eprint={2305.02463},
archivePrefix={arXiv},
primaryClass={cs.CV}
}