🚀 DUO模型
DUO是一個用於文本生成的預訓練模型,可用於掩碼語言建模任務,在OpenWebText語料庫上進行訓練,具有良好的性能。
🚀 快速開始
要使用預訓練的模型進行掩碼語言建模,請使用以下代碼片段:
from transformers import AutoModelForMaskedLM, AutoTokenizer
tokenizer = transformers.AutoTokenizer.from_pretrained('gpt2')
model = AutoModelForMaskedLM.from_pretrained('s-sahoo/duo-distilled')
如需實際操作示例,請查看此 Colab筆記本。
如需更多信息和實現細節,請訪問我們的GitHub倉庫:DUO
✨ 主要特性
- 數據集:使用了Skylion007/openwebtext數據集進行訓練。
- 評估指標:使用困惑度(perplexity)作為評估指標。
- 適用任務:適用於文本生成任務。
📦 安裝指南
文檔未提及具體安裝步驟,可參考 transformers 庫的安裝說明。
💻 使用示例
基礎用法
from transformers import AutoModelForMaskedLM, AutoTokenizer
tokenizer = transformers.AutoTokenizer.from_pretrained('gpt2')
model = AutoModelForMaskedLM.from_pretrained('s-sahoo/duo-distilled')
📚 詳細文檔
模型詳情
該模型的上下文長度為 1024
,大小與GPT2-medium相近,約有 1.3億
個非嵌入參數,在OpenWebText語料庫上進行了100萬步的訓練。
更多詳情請參閱我們的論文:The Diffusion Duality。
項目頁面:https://s-sahoo.com/duo
引用信息
請使用以下BibTeX引用我們的工作:
@inproceedings{
sahoo2025the,
title={The Diffusion Duality},
author={Subham Sekhar Sahoo and Justin Deschenaux and Aaron Gokaslan and Guanghan Wang and Justin T Chiu and Volodymyr Kuleshov},
booktitle={ICLR 2025 Workshop on Deep Generative Model in Machine Learning: Theory, Principle and Efficacy},
year={2025},
url={https://openreview.net/forum?id=CB0Ub2yXjC}
}
模型卡片聯繫人
Subham Sekhar Sahoo (ssahoo@cs.cornell.edu)
📄 許可證
本項目採用Apache 2.0許可證。
屬性 |
詳情 |
數據集 |
Skylion007/openwebtext |
語言 |
英語 |
庫名稱 |
transformers |
許可證 |
apache-2.0 |
評估指標 |
困惑度 |
任務類型 |
文本生成 |