🚀 Transformers模型项目
本项目提供了基于Transformers库的预训练模型,可用于掩码语言建模任务,在自然语言处理领域有重要应用价值。
🚀 快速开始
要使用预训练模型进行掩码语言建模,请使用以下代码片段:
from transformers import AutoModelForMaskedLM, AutoTokenizer
tokenizer = transformers.AutoTokenizer.from_pretrained('gpt2')
model_name = 'kuleshov-group/mdlm-owt'
model = AutoModelForMaskedLM.from_pretrained(model_name)
更多详情,请查看我们的GitHub仓库:MDLM
✨ 主要特性
- 模型规模:该模型上下文长度为
1024
,规模与GPT2-medium相近,约有 1.3亿
个非嵌入参数。
- 训练方式:采用前向扩散过程进行训练,生成从完全掩码到完全无掩码的不同输入,目标是从这些不同级别的掩码中重建原始输入,并在过程中输出对数几率。
- 训练数据:在OpenWebText语料库上进行了100万步的训练,总共处理了
330亿
个标记。
📚 详细文档
更多详细信息,请参阅我们的论文:Simple and Effective Masked Diffusion Language Models。
📄 许可证
本项目采用Apache-2.0许可证。
📦 模型信息
属性 |
详情 |
库名称 |
Transformers |
数据集 |
Skylion007/openwebtext |
评估指标 |
困惑度(perplexity) |
📚 引用信息
如果您使用了本项目的模型,请使用以下BibTeX和APA格式引用我们的工作:
BibTeX:
@misc{sahoo2024simple,
title={Simple and Effective Masked Diffusion Language Models},
author={Subham Sekhar Sahoo and Marianne Arriola and Yair Schiff and Aaron Gokaslan and Edgar Marroquin and Justin T Chiu and Alexander Rush and Volodymyr Kuleshov},
year={2024},
eprint={2406.07524},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
APA:
@software{Sahoo_Simple_and_Effective_2024,
author = {Sahoo, Subham Sekhar and Arriola, Marianne and Schiff, Yair and Gokaslan, Aaron and Marroquin, Edgar and Chiu, Justin T and Rush, Alexander and Kuleshov, Volodymyr},
doi = {10.48550/arXiv.2406.07524},
month = jun,
title = {{Simple and Effective Masked Diffusion Language Models}},
version = {arXiv:2406.07524v1},
year = {2024}
}
📞 联系信息
如有任何问题,请联系Subham Sekhar Sahoo (ssahoo@cs.cornell.edu)。