🚀 DeBERTaV3:使用帶梯度解耦嵌入共享的 ELECTRA 風格預訓練改進 DeBERTa
DeBERTaV3 藉助帶梯度解耦嵌入共享的 ELECTRA 風格預訓練,進一步提升了 DeBERTa 的效率。與 DeBERTa 相比,V3 版本在下游任務上顯著提高了模型性能。mDeBERTa 是 DeBERTa 的多語言版本,使用與 DeBERTa 相同的結構,並使用 CC100 多語言數據進行訓練。
✨ 主要特性
- 改進架構:DeBERTa 通過解耦注意力和增強掩碼解碼器改進了 BERT 和 RoBERTa 模型。在 80GB 訓練數據的情況下,DeBERTa 在大多數 NLU 任務上優於 RoBERTa。
- 效率提升:在 DeBERTa V3 中,使用帶梯度解耦嵌入共享的 ELECTRA 風格預訓練進一步提高了 DeBERTa 的效率。
- 多語言支持:mDeBERTa 是 DeBERTa 的多語言版本,使用 CC100 多語言數據進行訓練。
📚 詳細文檔
模型概述
DeBERTa 通過解耦注意力和增強掩碼解碼器改進了 BERT 和 RoBERTa 模型。在 80GB 訓練數據的情況下,DeBERTa 在大多數 NLU 任務上優於 RoBERTa。在 DeBERTa V3 中,我們使用帶梯度解耦嵌入共享的 ELECTRA 風格預訓練進一步提高了 DeBERTa 的效率。與 DeBERTa 相比,我們的 V3 版本在下游任務上顯著提高了模型性能。你可以從我們的 論文 中找到關於新模型的更多技術細節。
mDeBERTa 是 DeBERTa 的多語言版本,使用與 DeBERTa 相同的結構,並使用 CC100 多語言數據進行訓練。mDeBERTa V3 基礎模型有 12 層,隱藏層大小為 768。它有 8600 萬個骨幹參數,詞彙表包含 25 萬個標記,在嵌入層引入了 1.9 億個參數。該模型使用 2.5T 的 CC100 數據進行訓練,與 XLM - R 相同。
微調實驗
NLU 任務微調
我們展示了在 XNLI 上零樣本跨語言遷移設置下的開發結果,即僅使用英語數據進行訓練,在其他語言上進行測試。
模型 |
平均 |
英語 |
法語 |
西班牙語 |
德語 |
希臘語 |
保加利亞語 |
俄語 |
土耳其語 |
阿拉伯語 |
越南語 |
泰語 |
中文 |
印地語 |
斯瓦希里語 |
烏爾都語 |
XLM - R - base |
76.2 |
85.8 |
79.7 |
80.7 |
78.7 |
77.5 |
79.6 |
78.1 |
74.2 |
73.8 |
76.5 |
74.6 |
76.7 |
72.4 |
66.5 |
68.3 |
mDeBERTa - base |
79.8 +/- 0.2 |
88.2 |
82.6 |
84.4 |
82.7 |
82.3 |
82.4 |
80.8 |
79.5 |
78.5 |
78.1 |
76.4 |
79.5 |
75.9 |
73.9 |
72.4 |
使用 HF Transformers 進行微調
#!/bin/bash
cd transformers/examples/pytorch/text - classification/
pip install datasets
output_dir="ds_results"
num_gpus=8
batch_size=4
python -m torch.distributed.launch --nproc_per_node=${num_gpus} \
run_xnli.py \
--model_name_or_path microsoft/mdeberta - v3 - base \
--task_name $TASK_NAME \
--do_train \
--do_eval \
--train_language en \
--language en \
--evaluation_strategy steps \
--max_seq_length 256 \
--warmup_steps 3000 \
--per_device_train_batch_size ${batch_size} \
--learning_rate 2e - 5 \
--num_train_epochs 6 \
--output_dir $output_dir \
--overwrite_output_dir \
--logging_steps 1000 \
--logging_dir $output_dir
引用
如果你發現 DeBERTa 對你的工作有用,請引用以下論文:
@misc{he2021debertav3,
title={DeBERTaV3: Improving DeBERTa using ELECTRA - Style Pre - Training with Gradient - Disentangled Embedding Sharing},
author={Pengcheng He and Jianfeng Gao and Weizhu Chen},
year={2021},
eprint={2111.09543},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@inproceedings{
he2021deberta,
title={DEBERTA: DECODING - ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}
更多信息
請查看 官方倉庫 以獲取更多實現細節和更新。
📄 許可證
本項目採用 MIT 許可證。