Shap - Eオープンソースのテキストから3D画像を生成するモデル - テキストのプロンプトで簡単に3Dアセットを作成

ホーム

Shap E

openaiによって開発

Shap-Eは拡散プロセスに基づくテキストから3D画像を生成するモデルで、テキストプロンプトに応じてテクスチャメッシュやニューラルラディアンスフィールドとしてレンダリング可能な3Dアセットを生成できます。

3Dビジョンオープンソースライセンス:MIT #テキストから3D生成 #マルチ表現出力 #高速3Dモデリング

ダウンロード数 6,109

リリース時間 : 7/4/2023

モデル概要

Shap-Eは条件付き生成モデルで、2段階のトレーニングプロセスを通じて3D陰関数パラメータを直接生成し、テキストや画像から複雑で多様な3Dコンテンツを生成することをサポートします。

モデル特徴

マルチ表現出力

テクスチャメッシュやニューラルラディアンスフィールドとしてレンダリング可能な陰関数パラメータを直接生成し、複数の3D表現形式をサポートします。

効率的な生成

点群ベースの明示的生成モデルPoint-Eと比較して、より速く収束し、同等または優れたサンプル品質を達成できます。

条件付き生成

テキストプロンプトや入力画像を条件として3Dコンテンツを生成することをサポートし、高い制御性を備えています。

モデル能力

テキストから3Dモデル生成

画像から3D変換

テクスチャメッシュ生成

ニューラルラディアンスフィールド生成

使用事例

3Dコンテンツ制作

ゲームアセット生成

テキスト記述に基づいてゲーム内の3Dモデルやシーン要素を迅速に生成します。

数秒で複雑で多様な3Dアセットを生成可能

製品設計プロトタイプ

自然言語記述を通じて製品設計の3Dプロトタイプを迅速に生成します。

教育用可視化

科学概念のデモンストレーション

抽象的な科学概念を直感的な3D可視化モデルに変換します。

🚀 Shap-E

Shap-Eは、テキストプロンプトから3D画像を生成できる拡散プロセスを導入しています。これは、OpenAIのHeewoo JunとAlex NicholによるShap-E: Generating Conditional 3D Implicit Functionsで紹介されました。

Shap-Eのオリジナルリポジトリはこちらです: https://github.com/openai/shap-e 。

Shap-Eの著者はこのモデルカードを作成していません。彼らは別のモデルカードをこちらで提供しています。

🚀 クイックスタート

Shap-Eは、テキストプロンプトから3D画像を生成することができます。このモデルは、OpenAIによって開発され、論文「Shap-E: Generating Conditional 3D Implicit Functions」で紹介されました。

✨ 主な機能

テキストプロンプトから3D画像を生成することができます。
テクスチャ付きメッシュとニューラルラディアンスフィールドの両方としてレンダリングできる暗黙関数のパラメータを直接生成します。

📦 インストール

まず、すべての依存関係をインストールしてください。

pip install transformers accelerate -q
pip install git+https://github.com/huggingface/diffusers@@shap-ee

💻 使用例

基本的な使用法

依存関係をインストールしたら、以下のコードを使用してください。

import torch
from diffusers import ShapEPipeline
from diffusers.utils import export_to_gif


ckpt_id = "openai/shap-e"
pipe = ShapEPipeline.from_pretrained(repo).to("cuda")


guidance_scale = 15.0
prompt = "a shark"
images = pipe(
    prompt,
    guidance_scale=guidance_scale,
    num_inference_steps=64,
    size=256,
).images

gif_path = export_to_gif(images, "shark_3d.gif")

📚 ドキュメント

公開されたチェックポイント

著者らは以下のチェックポイントを公開しています。

openai/shap-e: テキスト入力プロンプトから3D画像を生成します。
openai/shap-e-img2img: 合成2D画像から3D画像をサンプリングします。

結果

画像	説明
	鳥
	サメ
	野菜の入ったボウル

トレーニングの詳細

詳細は元論文を参照してください。

既知の制限事項と潜在的なバイアス

詳細は元のモデルカードを参照してください。

🔧 技術詳細

Shap-Eの論文の概要は以下の通りです。

We present Shap-E, a conditional generative model for 3D assets. Unlike recent work on 3D generative models which produce a single output representation, Shap-E directly generates the parameters of implicit functions that can be rendered as both textured meshes and neural radiance fields. We train Shap-E in two stages: first, we train an encoder that deterministically maps 3D assets into the parameters of an implicit function; second, we train a conditional diffusion model on outputs of the encoder. When trained on a large dataset of paired 3D and text data, our resulting models are capable of generating complex and diverse 3D assets in a matter of seconds. When compared to Point-E, an explicit generative model over point clouds, Shap-E converges faster and reaches comparable or better sample quality despite modeling a higher-dimensional, multi-representation output space. We release model weights, inference code, and samples at this https URL.

📄 ライセンス

このモデルはMITライセンスの下で公開されています。

📄 引用

@misc{jun2023shape,
      title={Shap-E: Generating Conditional 3D Implicit Functions}, 
      author={Heewoo Jun and Alex Nichol},
      year={2023},
      eprint={2305.02463},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}