ノイズ除去拡散暗黙モデル（denoising - diffusion - implicit - models）オープンソースモデル

ホーム

Denoising Diffusion Implicit Models

keras-ioによって開発

U-Netアーキテクチャに基づく簡易版拡散モデルで、画像のノイズ除去と生成の教育デモ用

画像生成 #プログレッシブノイズ除去 #無条件画像生成 #U-Netアーキテクチャ

ダウンロード数 77

リリース時間 : 6/29/2022

モデル概要

このモデルはU-Netアーキテクチャを用いてノイズ除去拡散プロセスを実装し、プログレッシブなダウンサンプリングとアップサンプリングで画像を処理、ガウシアンノイズから反復的に自然画像を生成可能。主に生成モデルの入門教育用。

モデル特徴

簡素化アーキテクチャ設計

標準DDPMモデルと比べて注意力層を除去し、畳み込み残差ブロックのみ保持、計算複雑性を低減

正弦波位置エンコーディング

ノイズ成分の分散に正弦波位置埋め込みを採用し、時系列情報を効果的に捕捉

教育向け親和性

適度な計算要件と明確なコード構造で、拡散モデルの入門学習に最適

モデル能力

画像ノイズ除去

無条件画像生成

プログレッシブ画像合成

使用事例

教育デモ

拡散モデル教育

拡散モデルの基本動作原理と訓練プロセスを展示

64x64解像度の花卉画像を生成

クリエイティブ生成

簡易画像生成

ランダムノイズから花卉類の画像を生成

品質が許容範囲の自然画像サンプル

🚀 tf-keras

このモデルは、ノイジング拡散暗黙モデル（DDIM）に関するKerasコード例用に作成されました。主に生成、ノイジング、拡散などのタスクに使用されます。

🚀 クイックスタート

このモデルは、ノイジング拡散暗黙モデル（DDIM）に関するKerasコード例用に作成されました。詳細については、Kerasコード例または付随するコードリポジトリを参照してください。

✨ 主な機能

このモデルは、入力と出力の次元が同じU-Netを使用しています。入力画像を段階的にダウンサンプリングとアップサンプリングし、同じ解像度のレイヤー間にスキップ接続を追加します。
アーキテクチャはDDPMのアーキテクチャの簡略版で、畳み込み残差ブロックで構成され、注意レイヤーはありません。
ネットワークは2つの入力、ノイジー画像とそのノイズ成分の分散を受け取り、正弦波埋め込みを使用してエンコードします。

📚 ドキュメント

モデルの用途と制限

このモデルは、ノイジング拡散生成モデルの単純な例として、教育目的で使用されます。適度な計算要件で、自然画像生成性能が合理的です。

学習と評価データ

このモデルは、画像生成のためにOxford Flowers 102データセットで学習されました。これは、約8,000枚の花の画像を含む多様な自然データセットです。公式の分割は不均衡であるため（ほとんどの画像がテスト分割に含まれています）、モデルの学習には新しいランダム分割（80％トレイン、20％検証）が作成されました。前処理には中央クロップが使用されました。

学習手順

このモデルは、ノイジー画像のノイジングを行うように学習されており、純粋なガウスノイズを反復的にノイジングすることで画像を生成することができます。

学習ハイパーパラメータ

ハイパーパラメータ	値
エポック数	80
エポックごとのデータセット繰り返し回数	5
画像解像度	64
最小信号率	0.02
最大信号率	0.95
埋め込み次元	32
埋め込み最大周波数	1000.0
ブロック幅	32, 64, 96, 128
ブロック深度	2
バッチサイズ	64
指数移動平均	0.999
オプティマイザ	AdamW
学習率	1e-3
重み減衰	1e-4