🚀 DALL·E Megaモデルカード
DALL·E Megaモデルは、Hugging FaceのDALL·E miniスペースに関連するモデルです。このアプリは「dalle - mini」と呼ばれ、「DALL·E Mini」と「DALL·E Mega」のモデルを組み込んでいます。DALL·E MegaモデルはDALLE Miniの最大バージョンです。DALL·E Miniに関する詳細情報は、DALL·E Miniモデルカードを参照してください。
✨ 主な機能
このモデルは、テキストプロンプトに基づいて画像を生成することができます。モデル開発者は、DALL·E miniに関するプロジェクトレポートの中で、「OpenAIはDALL·Eによって画像生成において印象的なモデルを最初に開発しました。DALL·E miniは、オープンソースモデルでそれらの結果を再現しようとする試みです。」と述べています。
📚 ドキュメント
モデルの詳細
属性 |
詳情 |
開発者 |
Boris Dayma, Suraj Patil, Pedro Cuenca, Khalid Saifullah, Tanishq Abraham, Phúc Lê, Luke, Luke Melas, Ritobrata Ghosh |
モデルタイプ |
Transformerベースのテキストから画像生成モデル |
言語 |
英語 |
ライセンス |
Apache 2.0 |
モデル説明 |
このモデルは、テキストプロンプトに基づいて画像を生成するために使用できます。 |
詳細情報リソース |
- DALL·Eに関する詳細情報はOpenAIのウェブサイトを参照。 - DALL·E Miniに関するモデル開発者からの詳細情報は、DALL·E Miniのプロジェクトレポートを参照。 - DALL·E Megaについて詳しく知るには、DALL·E Megaのトレーニングジャーナルを参照。 |
引用形式 |
bib text<br>@misc{Dayma_DALL·E_Mini_2021,<br> author = {Dayma, Boris and Patil, Suraj and Cuenca, Pedro and Saifullah, Khalid and Abraham, Tanishq and Lê Khắc, Phúc and Melas, Luke and Ghosh, Ritobrata},<br> doi = {10.5281/zenodo.5146400},<br> month = {7},<br> title = {DALL·E Mini},<br> url = {https://github.com/borisdayma/dalle-mini},<br> year = {2021}<br>}<br> |
用途
直接的な使用
このモデルは、研究や個人利用のために、テキストプロンプトに基づいて画像を生成することを目的としています。意図された使用法には、創造性の支援、ユーモラスなコンテンツの作成、モデルの動作に興味がある人々への生成結果の提供などが含まれます。意図された使用法には、誤用、悪意のある使用、および範囲外の使用で説明されているものは含まれません。
下流の使用
このモデルは、以下を含む下流のユースケースにも使用できます。
- 研究活動、例えば生成モデルの制限やバイアスを調査し、科学の状況をさらに改善するための研究。
- 教育または創造的なツールの開発。
- アートワークの生成とデザインやアートプロセスでの使用。
- ユーザーによって新たに発見される他の使用法。現在では、詩のイラスト(詩をプロンプトとして与える)、ファンアート(キャラクターをさまざまなビジュアルユニバースに配置する)、ビジュアルダジャレ、童話のイラスト(空想的な状況をプロンプトとして与える)、コンセプトのマッシュアップ(全く異なるものにテクスチャを適用する)、スタイル転送(~のスタイルの肖像画)などが含まれます。あなた自身のアプリケーションを見つけることができることを期待しています!
下流の使用法には、誤用、悪意のある使用、および範囲外の使用で説明されている使用法は含まれません。
誤用、悪意のある使用、および範囲外の使用
このモデルは、人々に敵対的または疎外感を与える環境を生み出す画像を意図的に作成または拡散するために使用してはなりません。これには、人々が不快、苦痛、または不快感を感じるであろう画像や、歴史的または現在のステレオタイプを広めるコンテンツの生成が含まれます。
範囲外の使用
このモデルは、人や出来事の事実的または真実の表現を生成するように訓練されていないため、そのようなコンテンツを生成するためにこのモデルを使用することは、このモデルの能力の範囲外です。
誤用および悪意のある使用
このモデルを使用して、個人に残酷なコンテンツを生成することは、このモデルの誤用です。これには以下が含まれます。
- 人やその環境、文化、宗教などの侮辱的、非人間的、またはその他の有害な表現を生成すること。
- 差別的なコンテンツや有害なステレオタイプを意図的に宣伝または拡散すること。
- 本人の同意なしに個人をなりすますこと。
- 見る人の同意なしに性的なコンテンツを生成すること。
- 誤情報や偽情報の生成。
- 重大な暴力や残虐な描写を含む表現の生成。
- 著作権またはライセンスされた素材の使用条件に違反して共有すること。
- 著作権またはライセンスされた素材を改変したコンテンツを使用条件に違反して共有すること。
制限とバイアス
制限
モデル開発者は、DALL·E Miniの技術レポートで、このモデルの制限についてさらに説明しています。
- 顔や一般的な人物の生成が適切ではない。
- 動物の生成は通常非現実的である。
- モデルが得意または不得意な点を予測することは難しい…適切なプロンプトエンジニアリングが最良の結果につながります。
- このモデルは英語の説明でのみ訓練されており、他の言語では性能が低下します。
バイアス
⚠️ 重要提示
このセクションには、不快、不快感を与える、または歴史的および現在のステレオタイプを広める可能性のあるコンテンツが含まれています。
このモデルは、英語の説明付きの画像に限定されたインターネット上の未フィルタリングデータで訓練されています。他の言語を使用するコミュニティや文化のテキストや画像は利用されていません。これは、モデルのすべての出力に影響を与え、白人と西洋文化がデフォルトとして設定され、英語以外のプロンプトを使用したコンテンツの生成能力は英語のプロンプトに比べて明らかに低品質です。
画像生成モデルの能力は印象的ですが、社会的なバイアスを強化または悪化させる可能性もあります。DALL·E MiniとDALL·E Megaモデルのバイアスの程度と性質はまだ完全に文書化されていませんが、初期のテストでは、マイノリティグループに対する否定的なステレオタイプを含む画像を生成する可能性があることが示されています。モデルのバイアスと制限の性質と程度を分析する作業は進行中です。
現在の分析によると、以下のことが明らかになっています。
- このモデルによって生成される画像には、保護されたクラス、アイデンティティの特性、および敏感な、社会的、職業的なグループにまたがる不快で有害なステレオタイプが含まれる可能性がある。
- このモデルが人を含む画像を生成する場合、通常は白人と認識される人を出力する傾向があり、有色人種は過小表現されている。
- このモデルによって生成される画像には、有色人種と白人の間の権力格差を描いたバイアスのあるコンテンツが含まれ、白人が特権的な立場に置かれている。
- このモデルは一般的に英語のテキストに基づいて画像を生成するためにのみ使用でき、非英語話者にとってのモデルのアクセシビリティを制限し、モデルによって生成される画像のバイアスに寄与する可能性がある。
技術レポートでは、これらの問題について詳細に説明されており、モデル開発プロセスにおけるバイアスの潜在的な原因も強調されています。
制限とバイアスに関する推奨事項
💡 使用提言
- ユーザー(直接的および下流の両方)は、バイアスと制限について認識されるべきです。
- 潜在的に問題のあるコンテンツは、例えば暴力やポルノグラフィを検出する自動モデルを介してフィルタリングされるべきです。
- このモデルに関するさらなる作業には、人や文化のバランスの取れた公正な表現の方法が含まれるべきです。例えば、トレーニングデータセットを多様で包括的なものにするために選別することが挙げられます。
トレーニング
トレーニングデータ
DALL·E Megaのトレーニングデータの詳細については、DALL·E Megaトレーニングジャーナルを参照してください。
トレーニング手順
DALL·E Megaの簡略化されたトレーニング手順は以下の通りです。
- ハードウェア:1ポッドTPU v3 - 256 = TPU VM v3 - 8の32ノード(ノードあたり8 TPU) = 256 TPU v3
- オプティマイザー:Distributed Shampoo
- モデルパーティション指定:8モデル並列 x 32データ並列
- バッチ:モデルあたり44サンプル x 32データ並列 x 3勾配蓄積ステップ = 更新ごとに4224サンプルの増加
- 学習率:10,000ステップで0.0001までウォームアップし、その後プラトーに達するまで一定に保つ
- 各エンコーダ/デコーダ層(すなわち、MHA + FFN)で勾配チェックポイントを使用
- Distributed Shampoo + Normformer最適化は、このモデルを効果的かつ効率的に拡張することが証明されています。
- 学習率や他のパラメータは時々オンザフライで調整され、バッチサイズも時間とともに増加することにも留意すべきです。
完全な手順と技術資料に関する詳細情報は、DALL·E Megaのトレーニングジャーナルを参照してください。
評価結果
DALL·E Megaに関連する評価結果については、この技術レポートとDALL·E Megaトレーニングジャーナルを参照してください。
環境への影響
DALL·E Megaはまだトレーニング中です。2022年6月28日現在、モデル開発者によると、DALL·E MegaはTPU v3 - 256で約40 - 45日間トレーニングされています。これらの数値を使用して、Lacoste et al. (2019)で提示されたMachine Learning Impact calculatorを使用して、以下のCO2排出量を推定しています。ハードウェア、ランタイム、クラウドプロバイダー、およびコンピュートリージョンは、炭素排出量を推定するために利用されています。
属性 |
詳情 |
ハードウェアタイプ |
TPU v3 - 256 |
使用時間 |
1344時間(56日) |
クラウドプロバイダー |
GCP |
コンピュートリージョン |
us - east1 |
排出された炭素量(電力消費 x 時間 x 電力網の位置に基づく炭素排出量) |
18013.47 kg CO2 eq. |
引用
@misc{Dayma_DALL·E_Mini_2021,
author = {Dayma, Boris and Patil, Suraj and Cuenca, Pedro and Saifullah, Khalid and Abraham, Tanishq and Lê Khắc, Phúc and Melas, Luke and Ghosh, Ritobrata},
doi = {10.5281/zenodo.5146400},
month = {7},
title = {DALL·E Mini},
url = {https://github.com/borisdayma/dalle-mini},
year = {2021}
}
このモデルカードは、Boris Dayma, Margaret Mitchell, Ezi Ozoani, Marissa Gerchick, Irene Solaiman, Clémentine Fourrier, Sasha Luccioni, Emily Witko, Nazneen Rajani, Julian Herreraによって作成されました。