🚀 DeBERTaV3:使用帶梯度解耦嵌入共享的ELECTRA式預訓練改進DeBERTa
DeBERTaV3通過帶梯度解耦嵌入共享的ELECTRA式預訓練改進了DeBERTa模型,提升了模型在下游任務中的性能。它在多個自然語言理解(NLU)任務上表現出色,為相關領域的研究和應用提供了更強大的工具。
✨ 主要特性
- 解耦注意力和增強掩碼解碼器:DeBERTa使用解耦注意力和增強掩碼解碼器改進了BERT和RoBERTa模型。憑藉這兩項改進,DeBERTa在使用80GB訓練數據的大多數NLU任務上超越了RoBERTa。
- ELECTRA式預訓練和梯度解耦嵌入共享:在DeBERTa V3中,通過帶梯度解耦嵌入共享的ELECTRA式預訓練進一步提高了DeBERTa的效率。與DeBERTa相比,V3版本顯著提升了模型在下游任務中的性能。
📦 安裝指南
請查看官方倉庫以獲取更多實現細節和更新。
💻 使用示例
基礎用法
在NLU任務上進行微調
以下是在SQuAD 2.0和MNLI任務上的開發結果:
模型 |
詞彙量(K) |
主幹參數數量(M) |
SQuAD 2.0(F1/EM) |
MNLI-m/mm(準確率) |
RoBERTa-large |
50 |
304 |
89.4/86.5 |
90.2 |
XLNet-large |
32 |
- |
90.6/87.9 |
90.8 |
DeBERTa-large |
50 |
- |
90.7/88.0 |
91.3 |
DeBERTa-v3-large |
128 |
304 |
91.5/89.0 |
91.8/91.9 |
高級用法
使用HF transformers進行微調
#!/bin/bash
cd transformers/examples/pytorch/text-classification/
pip install datasets
export TASK_NAME=mnli
output_dir="ds_results"
num_gpus=8
batch_size=8
python -m torch.distributed.launch --nproc_per_node=${num_gpus} \
run_glue.py \
--model_name_or_path microsoft/deberta-v3-large \
--task_name $TASK_NAME \
--do_train \
--do_eval \
--evaluation_strategy steps \
--max_seq_length 256 \
--warmup_steps 50 \
--per_device_train_batch_size ${batch_size} \
--learning_rate 6e-6 \
--num_train_epochs 2 \
--output_dir $output_dir \
--overwrite_output_dir \
--logging_steps 1000 \
--logging_dir $output_dir
📚 詳細文檔
DeBERTa V3大模型有24層,隱藏層大小為1024。它有3.04億個主幹參數,詞彙表包含12.8萬個標記,在嵌入層引入了1.31億個參數。該模型和DeBERTa V2一樣,使用160GB數據進行訓練。你可以從我們的論文中找到關於新模型的更多技術細節。
📄 許可證
本項目採用MIT許可證。
引用
如果您發現DeBERTa對您的工作有幫助,請引用以下論文:
@misc{he2021debertav3,
title={DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing},
author={Pengcheng He and Jianfeng Gao and Weizhu Chen},
year={2021},
eprint={2111.09543},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@inproceedings{
he2021deberta,
title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}