🚀 DUO模型
DUO是一个用于文本生成的预训练模型,可用于掩码语言建模任务,在OpenWebText语料库上进行训练,具有良好的性能。
🚀 快速开始
要使用预训练的模型进行掩码语言建模,请使用以下代码片段:
from transformers import AutoModelForMaskedLM, AutoTokenizer
tokenizer = transformers.AutoTokenizer.from_pretrained('gpt2')
model = AutoModelForMaskedLM.from_pretrained('s-sahoo/duo-distilled')
如需实际操作示例,请查看此 Colab笔记本。
如需更多信息和实现细节,请访问我们的GitHub仓库:DUO
✨ 主要特性
- 数据集:使用了Skylion007/openwebtext数据集进行训练。
- 评估指标:使用困惑度(perplexity)作为评估指标。
- 适用任务:适用于文本生成任务。
📦 安装指南
文档未提及具体安装步骤,可参考 transformers 库的安装说明。
💻 使用示例
基础用法
from transformers import AutoModelForMaskedLM, AutoTokenizer
tokenizer = transformers.AutoTokenizer.from_pretrained('gpt2')
model = AutoModelForMaskedLM.from_pretrained('s-sahoo/duo-distilled')
📚 详细文档
模型详情
该模型的上下文长度为 1024
,大小与GPT2-medium相近,约有 1.3亿
个非嵌入参数,在OpenWebText语料库上进行了100万步的训练。
更多详情请参阅我们的论文:The Diffusion Duality。
项目页面:https://s-sahoo.com/duo
引用信息
请使用以下BibTeX引用我们的工作:
@inproceedings{
sahoo2025the,
title={The Diffusion Duality},
author={Subham Sekhar Sahoo and Justin Deschenaux and Aaron Gokaslan and Guanghan Wang and Justin T Chiu and Volodymyr Kuleshov},
booktitle={ICLR 2025 Workshop on Deep Generative Model in Machine Learning: Theory, Principle and Efficacy},
year={2025},
url={https://openreview.net/forum?id=CB0Ub2yXjC}
}
模型卡片联系人
Subham Sekhar Sahoo (ssahoo@cs.cornell.edu)
📄 许可证
本项目采用Apache 2.0许可证。
属性 |
详情 |
数据集 |
Skylion007/openwebtext |
语言 |
英语 |
库名称 |
transformers |
许可证 |
apache-2.0 |
评估指标 |
困惑度 |
任务类型 |
文本生成 |