🚀 DeBERTaV3:使用带梯度解耦嵌入共享的 ELECTRA 风格预训练改进 DeBERTa
DeBERTaV3 借助带梯度解耦嵌入共享的 ELECTRA 风格预训练,进一步提升了 DeBERTa 的效率。与 DeBERTa 相比,V3 版本在下游任务上显著提高了模型性能。mDeBERTa 是 DeBERTa 的多语言版本,使用与 DeBERTa 相同的结构,并使用 CC100 多语言数据进行训练。
✨ 主要特性
- 改进架构:DeBERTa 通过解耦注意力和增强掩码解码器改进了 BERT 和 RoBERTa 模型。在 80GB 训练数据的情况下,DeBERTa 在大多数 NLU 任务上优于 RoBERTa。
- 效率提升:在 DeBERTa V3 中,使用带梯度解耦嵌入共享的 ELECTRA 风格预训练进一步提高了 DeBERTa 的效率。
- 多语言支持:mDeBERTa 是 DeBERTa 的多语言版本,使用 CC100 多语言数据进行训练。
📚 详细文档
模型概述
DeBERTa 通过解耦注意力和增强掩码解码器改进了 BERT 和 RoBERTa 模型。在 80GB 训练数据的情况下,DeBERTa 在大多数 NLU 任务上优于 RoBERTa。在 DeBERTa V3 中,我们使用带梯度解耦嵌入共享的 ELECTRA 风格预训练进一步提高了 DeBERTa 的效率。与 DeBERTa 相比,我们的 V3 版本在下游任务上显著提高了模型性能。你可以从我们的 论文 中找到关于新模型的更多技术细节。
mDeBERTa 是 DeBERTa 的多语言版本,使用与 DeBERTa 相同的结构,并使用 CC100 多语言数据进行训练。mDeBERTa V3 基础模型有 12 层,隐藏层大小为 768。它有 8600 万个骨干参数,词汇表包含 25 万个标记,在嵌入层引入了 1.9 亿个参数。该模型使用 2.5T 的 CC100 数据进行训练,与 XLM - R 相同。
微调实验
NLU 任务微调
我们展示了在 XNLI 上零样本跨语言迁移设置下的开发结果,即仅使用英语数据进行训练,在其他语言上进行测试。
模型 |
平均 |
英语 |
法语 |
西班牙语 |
德语 |
希腊语 |
保加利亚语 |
俄语 |
土耳其语 |
阿拉伯语 |
越南语 |
泰语 |
中文 |
印地语 |
斯瓦希里语 |
乌尔都语 |
XLM - R - base |
76.2 |
85.8 |
79.7 |
80.7 |
78.7 |
77.5 |
79.6 |
78.1 |
74.2 |
73.8 |
76.5 |
74.6 |
76.7 |
72.4 |
66.5 |
68.3 |
mDeBERTa - base |
79.8 +/- 0.2 |
88.2 |
82.6 |
84.4 |
82.7 |
82.3 |
82.4 |
80.8 |
79.5 |
78.5 |
78.1 |
76.4 |
79.5 |
75.9 |
73.9 |
72.4 |
使用 HF Transformers 进行微调
#!/bin/bash
cd transformers/examples/pytorch/text - classification/
pip install datasets
output_dir="ds_results"
num_gpus=8
batch_size=4
python -m torch.distributed.launch --nproc_per_node=${num_gpus} \
run_xnli.py \
--model_name_or_path microsoft/mdeberta - v3 - base \
--task_name $TASK_NAME \
--do_train \
--do_eval \
--train_language en \
--language en \
--evaluation_strategy steps \
--max_seq_length 256 \
--warmup_steps 3000 \
--per_device_train_batch_size ${batch_size} \
--learning_rate 2e - 5 \
--num_train_epochs 6 \
--output_dir $output_dir \
--overwrite_output_dir \
--logging_steps 1000 \
--logging_dir $output_dir
引用
如果你发现 DeBERTa 对你的工作有用,请引用以下论文:
@misc{he2021debertav3,
title={DeBERTaV3: Improving DeBERTa using ELECTRA - Style Pre - Training with Gradient - Disentangled Embedding Sharing},
author={Pengcheng He and Jianfeng Gao and Weizhu Chen},
year={2021},
eprint={2111.09543},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@inproceedings{
he2021deberta,
title={DEBERTA: DECODING - ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}
更多信息
请查看 官方仓库 以获取更多实现细节和更新。
📄 许可证
本项目采用 MIT 许可证。