Dalle Mega
DALL·E Mega是基於Transformer的文本到圖像生成模型,是DALL·E Mini的最大版本,能夠根據英語文本提示生成圖像。
下載量 63
發布時間 : 6/28/2022
模型概述
該模型旨在根據文本提示生成圖像,主要用於研究和個人創意用途,支持藝術創作、概念設計等應用。
模型特點
文本到圖像生成
能夠根據英語文本提示生成多樣化的圖像內容
開源實現
作為OpenAI DALL·E的開源復現版本,提供可訪問的替代方案
大規模訓練
使用TPU v3-256硬件進行分佈式訓練,模型容量較大
模型能力
文本到圖像生成
創意內容創作
藝術風格探索
使用案例
創意藝術
詩歌插圖
根據詩歌內容生成對應的視覺圖像
生成與詩歌意境匹配的創意圖像
粉絲藝術創作
將角色置於不同視覺宇宙中生成新形象
創造跨風格的粉絲藝術作品
設計探索
概念混搭
將不同概念或紋理結合生成新穎設計
產生獨特的設計概念和視覺組合
🚀 DALL·E Mega模型卡片
DALL·E Mega是基於Transformer架構的文本到圖像生成模型,可根據文本提示生成圖像,為研究和個人創作提供支持。
🚀 快速開始
本模型卡片聚焦於與Hugging Face上DALL·E mini空間相關的DALL·E Mega模型,可在此處獲取。該應用名為“dalle - mini”,但整合了“DALL·E Mini”和“DALL·E Mega”模型。DALL·E Mega模型是DALLE Mini的最大版本。有關DALL·E Mini的更多特定信息,請參閱DALL·E Mini模型卡片。
✨ 主要特性
- 文本到圖像生成:能夠根據文本提示生成相應的圖像。
- 開源嘗試:嘗試以開源模型重現OpenAI DALL·E的成果。
📚 詳細文檔
模型詳情
屬性 | 詳情 |
---|---|
開發者 | Boris Dayma、Suraj Patil、Pedro Cuenca、Khalid Saifullah、Tanishq Abraham、Phúc Lê、Luke、Luke Melas、Ritobrata Ghosh |
模型類型 | 基於Transformer的文本到圖像生成模型 |
語言 | 英語 |
許可證 | Apache 2.0 |
模型描述 | 這是一個可根據文本提示生成圖像的模型。正如模型開發者在關於DALL·E mini的項目報告中所寫,“OpenAI憑藉DALL·E擁有了第一個令人印象深刻的圖像生成模型。DALL·E mini試圖用開源模型重現這些結果。” |
更多信息資源 | - 有關DALL·E的更多信息,包括DALL·E模型卡片,請訪問OpenAI的網站。 - 有關DALL·E Mini的更多信息,請參閱DALL·E Mini 項目報告。 - 要了解更多關於DALL·E Mega的信息,請參閱DALL·E Mega 訓練日誌。 |
引用格式 | ```bib text |
@misc{Dayma_DALL·E_Mini_2021, |
author = {Dayma, Boris and Patil, Suraj and Cuenca, Pedro and Saifullah, Khalid and Abraham, Tanishq and Lê Khắc, Phúc and Melas, Luke and Ghosh, Ritobrata},
doi = {10.5281/zenodo.5146400},
month = {7},
title = {DALL·E Mini},
url = {https://github.com/borisdayma/dalle-mini},
year = {2021}
}
### 用途
#### 直接使用
該模型旨在用於根據文本提示生成圖像,供研究和個人使用。預期用途包括激發創造力、創作幽默內容,以及為對模型行為感興趣的人提供圖像生成結果。預期用途不包括[濫用、惡意使用和超出範圍使用](#濫用、惡意使用和超出範圍使用)部分所述的情況。
#### 下游使用
該模型還可用於下游用例,包括:
- 研究工作,例如探究和更好地理解生成模型的侷限性和偏差,以進一步推動科學發展。
- 開發教育或創意工具。
- 生成藝術作品,並用於設計和藝術創作過程。
- 用戶新發現的其他用途。目前包括詩歌插畫(以詩歌作為提示)、粉絲藝術(將角色置於各種其他視覺場景中)、視覺雙關語、童話插畫(以幻想情境作為提示)、概念混搭(將一種紋理應用於完全不同的事物)、風格轉換(某種風格的肖像)等。我們希望你能找到自己的應用場景!
下游使用不包括[濫用、惡意使用和超出範圍使用](#濫用、惡意使用和超出範圍使用)部分所述的用途。
#### 濫用、惡意使用和超出範圍使用
該模型不應被用於故意創建或傳播為人們製造敵對或排斥環境的圖像。這包括生成人們可預見會感到不安、痛苦或冒犯的圖像;或傳播歷史或當前刻板印象的內容。
##### 超出範圍使用
該模型並非用於生成對人物或事件的事實性或真實呈現,因此使用該模型生成此類內容超出了該模型的能力範圍。
##### 濫用和惡意使用
使用該模型生成對個人殘酷的內容是對該模型的濫用。這包括:
- 生成貶低、非人化或以其他方式傷害人們或其環境、文化、宗教等的表現形式。
- 故意推廣或傳播歧視性內容或有害刻板印象。
- 在未經個人同意的情況下冒充他人。
- 未經可能看到該內容的人的同意而生成性內容。
- 虛假和誤導性信息。
- 嚴重暴力和血腥內容的表現形式。
- 違反版權或許可材料使用條款的分享行為。
- 違反版權或許可材料使用條款的對受版權保護或許可材料的修改內容的分享行為。
### 侷限性和偏差
#### 侷限性
模型開發者在DALL·E Mini [技術報告](https://wandb.ai/dalle-mini/dalle-mini/reports/DALL-E-Mini-Explained-with-Demo--Vmlldzo4NjIxODA)中進一步討論了模型的侷限性:
- 面部和人物通常無法正確生成。
- 動物通常不真實。
- 很難預測模型在哪些方面表現出色或不足……良好的提示工程將帶來最佳結果。
- 該模型僅使用英語描述進行訓練,在其他語言中的表現不佳。
#### 偏差
> ⚠️ **重要提示**
>
> 讀者應注意,本節包含可能令人不安、冒犯且可能傳播歷史和當前刻板印象的內容。
該模型在來自互聯網的未過濾數據上進行訓練,僅限於帶有英語描述的圖片。未使用來自使用其他語言的社區和文化的文本和圖像。這影響了模型的所有輸出,默認以白人和西方文化為主,並且該模型使用非英語提示生成內容的質量明顯低於英語提示。
雖然圖像生成模型的能力令人印象深刻,但它們也可能強化或加劇社會偏差。DALL·E Mini和DALL·E Mega模型的偏差程度和性質尚未完全記錄,但初步測試表明,它們可能生成包含對少數群體負面刻板印象的圖像。分析模型偏差和侷限性的性質和程度的工作正在進行中。
我們目前的分析表明:
- 該模型生成的圖像可能包含針對受保護類別、身份特徵以及敏感、社會和職業群體的令人不安和有害的刻板印象。
- 當模型生成包含人物的圖像時,往往輸出我們認為是白人的人物,而有色人種的代表性不足。
- 該模型生成的圖像可能包含描繪有色人種和白人之間權力差異的偏差內容,白人處於特權地位。
- 該模型通常僅適用於根據英語文本生成圖像,限制了非英語使用者對該模型的可訪問性,並可能導致模型生成圖像中的偏差。
[技術報告](https://wandb.ai/dalle-mini/dalle-mini/reports/DALL-E-Mini-Explained-with-Demo--Vmlldzo4NjIxODA)更詳細地討論了這些問題,並強調了模型開發過程中潛在的偏差來源。
#### 侷限性和偏差建議
> 💡 **使用建議**
>
> - 用戶(直接用戶和下游用戶)應瞭解模型的偏差和侷限性。
> - 應過濾掉可能存在問題的內容,例如通過檢測暴力或色情內容的自動化模型。
> - 該模型的進一步開發應包括採用平衡和公正地呈現人物和文化的方法,例如,精心策劃多樣化和包容性的訓練數據集。
### 訓練
#### 訓練數據
有關DALL·E Mega訓練數據的詳細信息,請參閱[DALL·E Mega訓練日誌](https://wandb.ai/dalle-mini/dalle-mini/reports/DALL-E-Mega-Training-Journal--VmlldzoxODMxMDI2#dall·e-mega---training)。
#### 訓練過程
DALL·E Mega的簡化訓練過程如下:
- **硬件**:1個TPU v3 - 256 Pod = 32個TPU VM v3 - 8節點(每個節點8個TPU) = 256個TPU v3
- **優化器**:分佈式Shampoo
- **模型分區規格**:8個模型並行x 32個數據並行
- **批次**:每個模型44個樣本x 32個數據並行x 3個梯度累積步驟 = 每次更新增加4224個樣本
- **學習率**:在10,000步內預熱到0.0001,然後保持恆定直到平穩。
- 在每個編碼器/解碼器層(即MHA + FFN)使用梯度檢查點。
- 分佈式Shampoo + Normformer優化已被證明能有效且高效地擴展該模型。
- 還應注意,學習率和其他參數有時會動態調整,批次大小也會隨時間增加。
有關完整過程和技術材料的更多信息,請參閱DALL·E Mega [訓練日誌](https://wandb.ai/dalle-mini/dalle-mini/reports/DALL-E-Mega-Training--VmlldzoxODMxMDI2#training-parameters)。
### 評估結果
有關DALL·E Mega的評估結果,請參閱此[技術報告](https://wandb.ai/dalle-mini/dalle-mini/reports/DALL-E-mini-Generate-images-from-any-text-prompt--VmlldzoyMDE4NDAy)和[DALL·E Mega訓練日誌](https://wandb.ai/dalle-mini/dalle-mini/reports/DALL-E-Mega-Training-Journal--VmlldzoxODMxMDI2#dall·e-mega---training)。
### 環境影響
DALL·E Mega仍在訓練中。截至2022年6月28日,模型開發者報告稱,DALL·E Mega已在TPU v3 - 256上訓練了約40 - 45天。使用這些數據,我們使用[Lacoste等人(2019)](https://arxiv.org/abs/1910.09700)中介紹的[機器學習影響計算器](https://mlco2.github.io/impact#compute)估算了以下二氧化碳排放量。利用硬件、運行時間、雲服務提供商和計算區域來估算碳影響。
| 屬性 | 詳情 |
|------|------|
| 硬件類型 | TPU v3 - 256 |
| 使用小時數 | 1344小時(56天) |
| 雲服務提供商 | GCP |
| 計算區域 | us - east1 |
| 碳排放(功耗x時間x基於電網位置產生的碳排放量) | 18013.47千克二氧化碳當量 |
### 引用
```bibtext
@misc{Dayma_DALL·E_Mini_2021,
author = {Dayma, Boris and Patil, Suraj and Cuenca, Pedro and Saifullah, Khalid and Abraham, Tanishq and Lê Khắc, Phúc and Melas, Luke and Ghosh, Ritobrata},
doi = {10.5281/zenodo.5146400},
month = {7},
title = {DALL·E Mini},
url = {https://github.com/borisdayma/dalle-mini},
year = {2021}
}
本模型卡片由Boris Dayma、Margaret Mitchell、Ezi Ozoani、Marissa Gerchick、Irene Solaiman、Clémentine Fourrier、Sasha Luccioni、Emily Witko、Nazneen Rajani和Julian Herrera編寫。
Clip Vit Large Patch14 336
基於Vision Transformer架構的大規模視覺語言預訓練模型,支持圖像與文本的跨模態理解
文本生成圖像
Transformers

C
openai
5.9M
241
Fashion Clip
MIT
FashionCLIP是基於CLIP開發的視覺語言模型,專門針對時尚領域進行微調,能夠生成通用產品表徵。
文本生成圖像
Transformers 英語

F
patrickjohncyh
3.8M
222
Gemma 3 1b It
Gemma 3是Google推出的輕量級先進開放模型系列,基於與Gemini模型相同的研究和技術構建。該模型是多模態模型,能夠處理文本和圖像輸入並生成文本輸出。
文本生成圖像
Transformers

G
google
2.1M
347
Blip Vqa Base
Bsd-3-clause
BLIP是一個統一的視覺語言預訓練框架,擅長視覺問答任務,通過語言-圖像聯合訓練實現多模態理解與生成能力
文本生成圖像
Transformers

B
Salesforce
1.9M
154
CLIP ViT H 14 Laion2b S32b B79k
MIT
基於OpenCLIP框架在LAION-2B英文數據集上訓練的視覺-語言模型,支持零樣本圖像分類和跨模態檢索任務
文本生成圖像
Safetensors
C
laion
1.8M
368
CLIP ViT B 32 Laion2b S34b B79k
MIT
基於OpenCLIP框架在LAION-2B英語子集上訓練的視覺-語言模型,支持零樣本圖像分類和跨模態檢索
文本生成圖像
Safetensors
C
laion
1.1M
112
Pickscore V1
PickScore v1 是一個針對文本生成圖像的評分函數,可用於預測人類偏好、評估模型性能和圖像排序等任務。
文本生成圖像
Transformers

P
yuvalkirstain
1.1M
44
Owlv2 Base Patch16 Ensemble
Apache-2.0
OWLv2是一種零樣本文本條件目標檢測模型,可通過文本查詢在圖像中定位對象。
文本生成圖像
Transformers

O
google
932.80k
99
Llama 3.2 11B Vision Instruct
Llama 3.2 是 Meta 發佈的多語言多模態大型語言模型,支持圖像文本到文本的轉換任務,具備強大的跨模態理解能力。
文本生成圖像
Transformers 支持多種語言

L
meta-llama
784.19k
1,424
Owlvit Base Patch32
Apache-2.0
OWL-ViT是一個零樣本文本條件目標檢測模型,可以通過文本查詢搜索圖像中的對象,無需特定類別的訓練數據。
文本生成圖像
Transformers

O
google
764.95k
129
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98