🚀 DeBERTaV3:使用帶梯度解耦嵌入共享的 ELECTRA 式預訓練改進 DeBERTa
DeBERTaV3 藉助帶梯度解耦嵌入共享的 ELECTRA 式預訓練,進一步提升了 DeBERTa 的效率。該模型在下游任務上顯著優於 DeBERTa,為自然語言處理任務帶來了更強大的性能表現。
🚀 快速開始
請查看官方倉庫以獲取更多實現細節和更新。
✨ 主要特性
- 解耦注意力和增強掩碼解碼器:DeBERTa 使用解耦注意力和增強掩碼解碼器改進了 BERT 和 RoBERTa 模型。憑藉這兩項改進,DeBERTa 在使用 80GB 訓練數據的大多數 NLU 任務上超越了 RoBERTa。
- ELECTRA 式預訓練和梯度解耦嵌入共享:在 DeBERTa V3 中,我們使用帶梯度解耦嵌入共享的 ELECTRA 式預訓練進一步提高了 DeBERTa 的效率。與 DeBERTa 相比,我們的 V3 版本顯著提高了模型在下游任務上的性能。你可以從我們的論文中找到有關新模型的更多技術細節。
📦 安裝指南
文檔未提及安裝步驟,可參考官方倉庫獲取安裝信息。
💻 使用示例
基礎用法
以下是使用 HF transformers 進行微調的示例:
#!/bin/bash
cd transformers/examples/pytorch/text-classification/
pip install datasets
export TASK_NAME=mnli
output_dir="ds_results"
num_gpus=8
batch_size=8
python -m torch.distributed.launch --nproc_per_node=${num_gpus} \
run_glue.py \
--model_name_or_path microsoft/deberta-v3-small \
--task_name $TASK_NAME \
--do_train \
--do_eval \
--evaluation_strategy steps \
--max_seq_length 256 \
--warmup_steps 1500 \
--per_device_train_batch_size ${batch_size} \
--learning_rate 4.5e-5 \
--num_train_epochs 3 \
--output_dir $output_dir \
--overwrite_output_dir \
--logging_steps 1000 \
--logging_dir $output_dir
📚 詳細文檔
模型參數
DeBERTa V3 小模型有 6 層,隱藏層大小為 768。它有 4400 萬 個骨幹參數,詞彙表包含 12.8 萬個標記,這在嵌入層引入了 9800 萬個參數。該模型與 DeBERTa V2 一樣,使用 160GB 數據進行訓練。
微調結果
我們展示了在 SQuAD 2.0 和 MNLI 任務上的開發結果:
模型 |
詞彙表(K) |
骨幹參數數量(M) |
SQuAD 2.0(F1/EM) |
MNLI-m/mm(ACC) |
RoBERTa-base |
50 |
86 |
83.7/80.5 |
87.6/- |
XLNet-base |
32 |
92 |
-/80.2 |
86.8/- |
ELECTRA-base |
30 |
86 |
-/80.5 |
88.8/ |
DeBERTa-base |
50 |
100 |
86.2/83.1 |
88.8/88.5 |
DeBERTa-v3-large |
128 |
304 |
91.5/89.0 |
91.8/91.9 |
DeBERTa-v3-base |
128 |
86 |
88.4/85.4 |
90.6/90.7 |
DeBERTa-v3-small |
128 |
44 |
82.8/80.4 |
88.3/87.7 |
DeBERTa-v3-small+SiFT |
128 |
22 |
-/- |
88.8/88.5 |
📄 許可證
本項目採用 MIT 許可證。
📖 引用
如果你發現 DeBERTa 對您的工作有用,請引用以下論文:
@misc{he2021debertav3,
title={DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing},
author={Pengcheng He and Jianfeng Gao and Weizhu Chen},
year={2021},
eprint={2111.09543},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@inproceedings{
he2021deberta,
title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}