🚀 DALL·E Mini模型卡片
DALL·E Mini是一個基於文本生成圖像的模型,可根據文本提示生成各種圖像。它在創意支持、幽默內容創作等方面具有廣泛應用。本模型卡片聚焦於Hugging Face上與DALL·E Mini空間相關的模型,你可以點擊此處查看。
🚀 快速開始
本模型旨在基於文本提示生成圖像,可用於研究和個人使用。你可以通過訪問DALL·E Mini空間開始使用。
✨ 主要特性
- 文本到圖像生成:根據文本提示生成相應的圖像。
- 多種應用場景:支持創意、幽默內容創作等。
📚 詳細文檔
模型詳情
- 開發者:Boris Dayma、Suraj Patil、Pedro Cuenca、Khalid Saifullah、Tanishq Abraham、Phúc Lê、Luke、Luke Melas、Ritobrata Ghosh
- 模型類型:基於Transformer的文本到圖像生成模型
- 語言:英語
- 許可證:Apache 2.0
- 模型描述:該模型可根據文本提示生成圖像。正如模型開發者在項目報告中所述,“OpenAI的DALL·E是首個令人印象深刻的圖像生成模型,DALL·E Mini則是嘗試用開源模型重現這些結果”。
- 更多信息資源:可訪問OpenAI的網站了解DALL·E的更多信息,包括DALL·E模型卡片。查看項目報告獲取模型開發者提供的更多信息。若想了解DALL·E Mega的具體信息,可查看DALL·E Mega模型卡片。
- 引用格式:
@misc{Dayma_DALL·E_Mini_2021,
author = {Dayma, Boris and Patil, Suraj and Cuenca, Pedro and Saifullah, Khalid and Abraham, Tanishq and Lê Khắc, Phúc and Melas, Luke and Ghosh, Ritobrata},
doi = {10.5281/zenodo.5146400},
month = {7},
title = {DALL·E Mini},
url = {https://github.com/borisdayma/dalle-mini},
year = {2021}
}
使用方式
直接使用
該模型旨在基於文本提示生成圖像,用於研究和個人消費。預期用途包括支持創意、創作幽默內容,以及為對模型行為感興趣的人提供生成結果。預期用途不包括濫用、惡意使用和超出範圍使用部分所述的情況。
下游使用
該模型也可用於下游用例,包括:
- 研究工作,如探索和更好地理解生成模型的侷限性和偏差,以進一步推動科學發展。
- 開發教育或創意工具。
- 生成藝術作品,並用於設計和藝術創作過程。
- 用戶發現的其他新用途,目前包括詩歌插畫(以詩歌為提示)、粉絲藝術(將角色置於不同視覺場景中)、視覺雙關語、童話插畫(以幻想情境為提示)、概念混搭(將紋理應用於不同事物)、風格遷移(以某種風格繪製肖像)等。
下游使用不包括濫用、惡意使用和超出範圍使用部分所述的情況。
濫用、惡意使用和超出範圍使用
該模型不得用於故意創建或傳播對他人造成敵對或排斥環境的圖像。這包括生成人們可能會覺得不安、痛苦或冒犯的圖像,或傳播歷史或當前刻板印象的內容。
- 超出範圍使用:該模型並非用於生成真實或準確反映人物或事件的內容,因此使用該模型生成此類內容超出了其能力範圍。
- 濫用和惡意使用:使用該模型生成對個人殘酷的內容屬於濫用行為,包括:
- 生成貶低、非人化或以其他方式傷害他人或其環境、文化、宗教等的內容。
- 故意推廣或傳播歧視性內容或有害刻板印象。
- 在未經他人同意的情況下冒充他人。
- 未經可能看到該內容的人的同意,生成色情內容。
- 虛假和誤導性信息。
- 展示嚴重暴力和血腥場景。
- 違反使用條款分享受版權保護或有許可證的材料。
- 違反使用條款分享對受版權保護或有許可證的材料進行修改後的內容。
侷限性和偏差
侷限性
模型開發者在DALL·E Mini的技術報告中進一步討論了模型的侷限性:
- 面部和人物的生成效果通常不佳。
- 動物的生成通常不真實。
- 難以預測模型在哪些方面表現出色或不足,良好的提示工程將帶來最佳結果。
- 該模型僅使用英語描述進行訓練,使用其他語言提示時性能會下降。
偏差
內容警告:讀者應注意,本節包含令人不安、冒犯性的內容,可能會傳播歷史和當前的刻板印象。
該模型使用來自互聯網的未過濾數據進行訓練,僅限於帶有英語描述的圖片,未使用其他語言社區和文化的文本和圖像。這影響了模型的所有輸出,默認以白人和西方文化為主,並且使用非英語提示生成的內容質量明顯低於英語提示。
雖然圖像生成模型的能力令人印象深刻,但它們也可能強化或加劇社會偏差。DALL·E Mini和DALL·E Mega模型的偏差程度和性質尚未完全記錄,但初步測試表明,它們可能會生成包含對少數群體負面刻板印象的圖像。分析模型偏差和侷限性的性質和程度的工作正在進行中。
目前的分析表明:
- 模型生成的圖像可能包含針對受保護類別、身份特徵以及敏感、社會和職業群體的令人不安和有害的刻板印象。
- 當模型生成包含人物的圖像時,往往會輸出我們認為是白人的人物,而有色人種的代表性不足。
- 模型生成的圖像可能包含描繪有色人種和白人之間權力差異的偏差內容,白人處於特權地位。
- 該模型通常僅適用於基於英語文本生成圖像,限制了非英語使用者對模型的訪問,並可能導致模型生成的圖像存在偏差。
技術報告更詳細地討論了這些問題,並強調了模型開發過程中可能存在偏差的來源。
侷限性和偏差建議
- 應讓用戶(直接和下游用戶)瞭解模型的偏差和侷限性。
- 應過濾掉可能存在問題的內容,例如通過檢測暴力或色情內容的自動化模型。
- 對該模型的進一步研究應包括採用平衡和公正地呈現人物和文化的方法,例如通過精心策劃多樣化和包容性的訓練數據集。
訓練
訓練數據
模型開發者使用了3個數據集來訓練模型:
在微調圖像編碼器時,使用了200萬張圖像的子集。所有圖像(約1500萬張)用於訓練Seq2Seq模型。
訓練過程
正如DALL·E Mini的技術報告中所述,在訓練過程中,圖像和描述都會被輸入到系統中,具體過程如下:
- 圖像通過VQGAN編碼器進行編碼,將圖像轉換為一系列令牌。
- 描述通過BART編碼器進行編碼。
- BART編碼器的輸出和編碼後的圖像被輸入到BART解碼器中,BART解碼器是一個自迴歸模型,其目標是預測下一個令牌。
- 損失函數是模型預測對數和來自VQGAN的實際圖像編碼之間的softmax交叉熵。
DALL·E Mega的簡化訓練過程如下:
- 硬件:1個TPU v3 - 256節點 = 32個TPU VM v3 - 8節點(每個節點8個TPU) = 256個TPU v3
- 優化器:分佈式Shampoo
- 模型分區規格:8個模型並行 x 32個數據並行
- 批次:每個模型44個樣本 x 32個數據並行 x 3個梯度累積步驟 = 每次更新增加4224個樣本
- 學習率:在10000步內熱身到0.0001,然後保持不變直到平穩
- 在每個編碼器/解碼器層(即MHA + FFN)使用梯度檢查點
- 分佈式Shampoo + Normformer優化已被證明可以有效且高效地擴展該模型。
還應注意的是,學習率和其他參數有時會動態調整,批次大小也會隨著時間增加。
有關完整過程和技術材料的更多信息,請參閱DALL·E Mega的訓練日誌。
評估結果
模型開發者在DALL·E Mini的技術報告中詳細討論了他們的評估結果,該報告將DALL·E Mini的結果與DALL·E-pytorch、OpenAI的DALL·E以及由生成器和CLIP神經網絡模型組成的模型進行了比較。
有關DALL·E Mega的評估結果,請參閱技術報告。
環境影響
DALL·E Mini估計排放量
該模型比原始DALL·E小27倍,僅在單個TPU v3 - 8上訓練了3天。
基於這些信息,我們使用Lacoste等人(2019)中介紹的機器學習影響計算器來估計以下CO2排放量。硬件、運行時間、雲服務提供商和計算區域用於估計碳影響。
- 硬件類型:TPU v3 - 8
- 使用小時數:72(3天)
- 雲服務提供商:GCP(如技術報告中所述)
- 計算區域:us - east1(由模型開發者提供)
- 碳排放(功耗 x 時間 x 基於電網位置產生的碳):30.16千克CO2當量。
DALL·E Mega估計排放量
DALL·E Mega仍在訓練中。截至2022年6月9日,模型開發者報告稱,DALL·E Mega已經在TPU v3 - 256上訓練了約40 - 45天。使用這些數據,我們使用Lacoste等人(2019)中介紹的機器學習影響計算器來估計以下CO2排放量。硬件、運行時間、雲服務提供商和計算區域用於估計碳影響。
- 硬件類型:TPU v3 - 256
- 使用小時數:960 - 1080小時(40 - 45天)
- 雲服務提供商:未知
- 計算區域:未知
- 碳排放(功耗 x 時間 x 基於電網位置產生的碳):未知
引用
@misc{Dayma_DALL·E_Mini_2021,
author = {Dayma, Boris and Patil, Suraj and Cuenca, Pedro and Saifullah, Khalid and Abraham, Tanishq and Lê Khắc, Phúc and Melas, Luke and Ghosh, Ritobrata},
doi = {10.5281/zenodo.5146400},
month = {7},
title = {DALL·E Mini},
url = {https://github.com/borisdayma/dalle-mini},
year = {2021}
}
本模型卡片由Boris Dayma、Margaret Mitchell、Ezi Ozoani、Marissa Gerchick、Irene Solaiman、Clémentine Fourrier、Sasha Luccioni、Emily Witko、Nazneen Rajani和Julian Herrera撰寫。
信息表格
重要提示
⚠️ 重要提示
該模型存在侷限性和偏差,使用時應注意避免生成可能對他人造成傷害或傳播負面刻板印象的內容。同時,模型僅使用英語描述進行訓練,使用非英語提示時性能會下降。
💡 使用建議
為了獲得更好的使用效果,建議使用良好的提示工程。同時,對生成的內容進行過濾,以避免出現可能存在問題的圖像。在進一步開發時,可考慮採用平衡和公正地呈現人物和文化的方法,如精心策劃多樣化和包容性的訓練數據集。