Dalle Mega
DALL·E Mega是基于Transformer的文本到图像生成模型,是DALL·E Mini的最大版本,能够根据英语文本提示生成图像。
下载量 63
发布时间 : 6/28/2022
模型简介
该模型旨在根据文本提示生成图像,主要用于研究和个人创意用途,支持艺术创作、概念设计等应用。
模型特点
文本到图像生成
能够根据英语文本提示生成多样化的图像内容
开源实现
作为OpenAI DALL·E的开源复现版本,提供可访问的替代方案
大规模训练
使用TPU v3-256硬件进行分布式训练,模型容量较大
模型能力
文本到图像生成
创意内容创作
艺术风格探索
使用案例
创意艺术
诗歌插图
根据诗歌内容生成对应的视觉图像
生成与诗歌意境匹配的创意图像
粉丝艺术创作
将角色置于不同视觉宇宙中生成新形象
创造跨风格的粉丝艺术作品
设计探索
概念混搭
将不同概念或纹理结合生成新颖设计
产生独特的设计概念和视觉组合
🚀 DALL·E Mega模型卡片
DALL·E Mega是基于Transformer架构的文本到图像生成模型,可根据文本提示生成图像,为研究和个人创作提供支持。
🚀 快速开始
本模型卡片聚焦于与Hugging Face上DALL·E mini空间相关的DALL·E Mega模型,可在此处获取。该应用名为“dalle - mini”,但整合了“DALL·E Mini”和“DALL·E Mega”模型。DALL·E Mega模型是DALLE Mini的最大版本。有关DALL·E Mini的更多特定信息,请参阅DALL·E Mini模型卡片。
✨ 主要特性
- 文本到图像生成:能够根据文本提示生成相应的图像。
- 开源尝试:尝试以开源模型重现OpenAI DALL·E的成果。
📚 详细文档
模型详情
属性 | 详情 |
---|---|
开发者 | Boris Dayma、Suraj Patil、Pedro Cuenca、Khalid Saifullah、Tanishq Abraham、Phúc Lê、Luke、Luke Melas、Ritobrata Ghosh |
模型类型 | 基于Transformer的文本到图像生成模型 |
语言 | 英语 |
许可证 | Apache 2.0 |
模型描述 | 这是一个可根据文本提示生成图像的模型。正如模型开发者在关于DALL·E mini的项目报告中所写,“OpenAI凭借DALL·E拥有了第一个令人印象深刻的图像生成模型。DALL·E mini试图用开源模型重现这些结果。” |
更多信息资源 | - 有关DALL·E的更多信息,包括DALL·E模型卡片,请访问OpenAI的网站。 - 有关DALL·E Mini的更多信息,请参阅DALL·E Mini 项目报告。 - 要了解更多关于DALL·E Mega的信息,请参阅DALL·E Mega 训练日志。 |
引用格式 | ```bib text |
@misc{Dayma_DALL·E_Mini_2021, |
author = {Dayma, Boris and Patil, Suraj and Cuenca, Pedro and Saifullah, Khalid and Abraham, Tanishq and Lê Khắc, Phúc and Melas, Luke and Ghosh, Ritobrata},
doi = {10.5281/zenodo.5146400},
month = {7},
title = {DALL·E Mini},
url = {https://github.com/borisdayma/dalle-mini},
year = {2021}
}
### 用途
#### 直接使用
该模型旨在用于根据文本提示生成图像,供研究和个人使用。预期用途包括激发创造力、创作幽默内容,以及为对模型行为感兴趣的人提供图像生成结果。预期用途不包括[滥用、恶意使用和超出范围使用](#滥用、恶意使用和超出范围使用)部分所述的情况。
#### 下游使用
该模型还可用于下游用例,包括:
- 研究工作,例如探究和更好地理解生成模型的局限性和偏差,以进一步推动科学发展。
- 开发教育或创意工具。
- 生成艺术作品,并用于设计和艺术创作过程。
- 用户新发现的其他用途。目前包括诗歌插画(以诗歌作为提示)、粉丝艺术(将角色置于各种其他视觉场景中)、视觉双关语、童话插画(以幻想情境作为提示)、概念混搭(将一种纹理应用于完全不同的事物)、风格转换(某种风格的肖像)等。我们希望你能找到自己的应用场景!
下游使用不包括[滥用、恶意使用和超出范围使用](#滥用、恶意使用和超出范围使用)部分所述的用途。
#### 滥用、恶意使用和超出范围使用
该模型不应被用于故意创建或传播为人们制造敌对或排斥环境的图像。这包括生成人们可预见会感到不安、痛苦或冒犯的图像;或传播历史或当前刻板印象的内容。
##### 超出范围使用
该模型并非用于生成对人物或事件的事实性或真实呈现,因此使用该模型生成此类内容超出了该模型的能力范围。
##### 滥用和恶意使用
使用该模型生成对个人残酷的内容是对该模型的滥用。这包括:
- 生成贬低、非人化或以其他方式伤害人们或其环境、文化、宗教等的表现形式。
- 故意推广或传播歧视性内容或有害刻板印象。
- 在未经个人同意的情况下冒充他人。
- 未经可能看到该内容的人的同意而生成性内容。
- 虚假和误导性信息。
- 严重暴力和血腥内容的表现形式。
- 违反版权或许可材料使用条款的分享行为。
- 违反版权或许可材料使用条款的对受版权保护或许可材料的修改内容的分享行为。
### 局限性和偏差
#### 局限性
模型开发者在DALL·E Mini [技术报告](https://wandb.ai/dalle-mini/dalle-mini/reports/DALL-E-Mini-Explained-with-Demo--Vmlldzo4NjIxODA)中进一步讨论了模型的局限性:
- 面部和人物通常无法正确生成。
- 动物通常不真实。
- 很难预测模型在哪些方面表现出色或不足……良好的提示工程将带来最佳结果。
- 该模型仅使用英语描述进行训练,在其他语言中的表现不佳。
#### 偏差
> ⚠️ **重要提示**
>
> 读者应注意,本节包含可能令人不安、冒犯且可能传播历史和当前刻板印象的内容。
该模型在来自互联网的未过滤数据上进行训练,仅限于带有英语描述的图片。未使用来自使用其他语言的社区和文化的文本和图像。这影响了模型的所有输出,默认以白人和西方文化为主,并且该模型使用非英语提示生成内容的质量明显低于英语提示。
虽然图像生成模型的能力令人印象深刻,但它们也可能强化或加剧社会偏差。DALL·E Mini和DALL·E Mega模型的偏差程度和性质尚未完全记录,但初步测试表明,它们可能生成包含对少数群体负面刻板印象的图像。分析模型偏差和局限性的性质和程度的工作正在进行中。
我们目前的分析表明:
- 该模型生成的图像可能包含针对受保护类别、身份特征以及敏感、社会和职业群体的令人不安和有害的刻板印象。
- 当模型生成包含人物的图像时,往往输出我们认为是白人的人物,而有色人种的代表性不足。
- 该模型生成的图像可能包含描绘有色人种和白人之间权力差异的偏差内容,白人处于特权地位。
- 该模型通常仅适用于根据英语文本生成图像,限制了非英语使用者对该模型的可访问性,并可能导致模型生成图像中的偏差。
[技术报告](https://wandb.ai/dalle-mini/dalle-mini/reports/DALL-E-Mini-Explained-with-Demo--Vmlldzo4NjIxODA)更详细地讨论了这些问题,并强调了模型开发过程中潜在的偏差来源。
#### 局限性和偏差建议
> 💡 **使用建议**
>
> - 用户(直接用户和下游用户)应了解模型的偏差和局限性。
> - 应过滤掉可能存在问题的内容,例如通过检测暴力或色情内容的自动化模型。
> - 该模型的进一步开发应包括采用平衡和公正地呈现人物和文化的方法,例如,精心策划多样化和包容性的训练数据集。
### 训练
#### 训练数据
有关DALL·E Mega训练数据的详细信息,请参阅[DALL·E Mega训练日志](https://wandb.ai/dalle-mini/dalle-mini/reports/DALL-E-Mega-Training-Journal--VmlldzoxODMxMDI2#dall·e-mega---training)。
#### 训练过程
DALL·E Mega的简化训练过程如下:
- **硬件**:1个TPU v3 - 256 Pod = 32个TPU VM v3 - 8节点(每个节点8个TPU) = 256个TPU v3
- **优化器**:分布式Shampoo
- **模型分区规格**:8个模型并行x 32个数据并行
- **批次**:每个模型44个样本x 32个数据并行x 3个梯度累积步骤 = 每次更新增加4224个样本
- **学习率**:在10,000步内预热到0.0001,然后保持恒定直到平稳。
- 在每个编码器/解码器层(即MHA + FFN)使用梯度检查点。
- 分布式Shampoo + Normformer优化已被证明能有效且高效地扩展该模型。
- 还应注意,学习率和其他参数有时会动态调整,批次大小也会随时间增加。
有关完整过程和技术材料的更多信息,请参阅DALL·E Mega [训练日志](https://wandb.ai/dalle-mini/dalle-mini/reports/DALL-E-Mega-Training--VmlldzoxODMxMDI2#training-parameters)。
### 评估结果
有关DALL·E Mega的评估结果,请参阅此[技术报告](https://wandb.ai/dalle-mini/dalle-mini/reports/DALL-E-mini-Generate-images-from-any-text-prompt--VmlldzoyMDE4NDAy)和[DALL·E Mega训练日志](https://wandb.ai/dalle-mini/dalle-mini/reports/DALL-E-Mega-Training-Journal--VmlldzoxODMxMDI2#dall·e-mega---training)。
### 环境影响
DALL·E Mega仍在训练中。截至2022年6月28日,模型开发者报告称,DALL·E Mega已在TPU v3 - 256上训练了约40 - 45天。使用这些数据,我们使用[Lacoste等人(2019)](https://arxiv.org/abs/1910.09700)中介绍的[机器学习影响计算器](https://mlco2.github.io/impact#compute)估算了以下二氧化碳排放量。利用硬件、运行时间、云服务提供商和计算区域来估算碳影响。
| 属性 | 详情 |
|------|------|
| 硬件类型 | TPU v3 - 256 |
| 使用小时数 | 1344小时(56天) |
| 云服务提供商 | GCP |
| 计算区域 | us - east1 |
| 碳排放(功耗x时间x基于电网位置产生的碳排放量) | 18013.47千克二氧化碳当量 |
### 引用
```bibtext
@misc{Dayma_DALL·E_Mini_2021,
author = {Dayma, Boris and Patil, Suraj and Cuenca, Pedro and Saifullah, Khalid and Abraham, Tanishq and Lê Khắc, Phúc and Melas, Luke and Ghosh, Ritobrata},
doi = {10.5281/zenodo.5146400},
month = {7},
title = {DALL·E Mini},
url = {https://github.com/borisdayma/dalle-mini},
year = {2021}
}
本模型卡片由Boris Dayma、Margaret Mitchell、Ezi Ozoani、Marissa Gerchick、Irene Solaiman、Clémentine Fourrier、Sasha Luccioni、Emily Witko、Nazneen Rajani和Julian Herrera编写。
Clip Vit Large Patch14 336
基于Vision Transformer架构的大规模视觉语言预训练模型,支持图像与文本的跨模态理解
文本生成图像
Transformers

C
openai
5.9M
241
Fashion Clip
MIT
FashionCLIP是基于CLIP开发的视觉语言模型,专门针对时尚领域进行微调,能够生成通用产品表征。
文本生成图像
Transformers 英语

F
patrickjohncyh
3.8M
222
Gemma 3 1b It
Gemma 3是Google推出的轻量级先进开放模型系列,基于与Gemini模型相同的研究和技术构建。该模型是多模态模型,能够处理文本和图像输入并生成文本输出。
文本生成图像
Transformers

G
google
2.1M
347
Blip Vqa Base
Bsd-3-clause
BLIP是一个统一的视觉语言预训练框架,擅长视觉问答任务,通过语言-图像联合训练实现多模态理解与生成能力
文本生成图像
Transformers

B
Salesforce
1.9M
154
CLIP ViT H 14 Laion2b S32b B79k
MIT
基于OpenCLIP框架在LAION-2B英文数据集上训练的视觉-语言模型,支持零样本图像分类和跨模态检索任务
文本生成图像
Safetensors
C
laion
1.8M
368
CLIP ViT B 32 Laion2b S34b B79k
MIT
基于OpenCLIP框架在LAION-2B英语子集上训练的视觉-语言模型,支持零样本图像分类和跨模态检索
文本生成图像
Safetensors
C
laion
1.1M
112
Pickscore V1
PickScore v1 是一个针对文本生成图像的评分函数,可用于预测人类偏好、评估模型性能和图像排序等任务。
文本生成图像
Transformers

P
yuvalkirstain
1.1M
44
Owlv2 Base Patch16 Ensemble
Apache-2.0
OWLv2是一种零样本文本条件目标检测模型,可通过文本查询在图像中定位对象。
文本生成图像
Transformers

O
google
932.80k
99
Llama 3.2 11B Vision Instruct
Llama 3.2 是 Meta 发布的多语言多模态大型语言模型,支持图像文本到文本的转换任务,具备强大的跨模态理解能力。
文本生成图像
Transformers 支持多种语言

L
meta-llama
784.19k
1,424
Owlvit Base Patch32
Apache-2.0
OWL-ViT是一个零样本文本条件目标检测模型,可以通过文本查询搜索图像中的对象,无需特定类别的训练数据。
文本生成图像
Transformers

O
google
764.95k
129
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98