🚀 DeBERTaV3: ELECTRA-Style事前学習と勾配分離埋め込み共有を用いたDeBERTaの改善
DeBERTaは、分離型注意機構と強化されたマスクデコーダを用いて、BERTとRoBERTaモデルを改善しました。これら2つの改善により、DeBERTaは80GBの学習データを用いた大多数のNLUタスクでRoBERTaを上回っています。
DeBERTa V3では、ELECTRA-Style事前学習と勾配分離埋め込み共有を用いて、DeBERTaの効率をさらに向上させています。DeBERTaと比較して、V3バージョンは下流タスクでのモデル性能を大幅に向上させています。新しいモデルに関する詳細な技術情報は、論文から確認できます。
実装の詳細や更新情報については、公式リポジトリをご確認ください。
mDeBERTaはDeBERTaの多言語バージョンで、DeBERTaと同じ構造を持ち、CC100多言語データで学習されています。
mDeBERTa V3ベースモデルは12層で、隠れ層のサイズは768です。バックボーンパラメータは86Mで、語彙数は250Kトークンで、埋め込み層には190Mのパラメータが導入されています。このモデルは、XLM-Rと同じく2.5TのCC100データを用いて学習されています。
✨ 主な機能
- DeBERTaは分離型注意機構と強化されたマスクデコーダを用いて、BERTとRoBERTaモデルを改善。
- DeBERTa V3はELECTRA-Style事前学習と勾配分離埋め込み共有を用いて、DeBERTaの効率をさらに向上。
- mDeBERTaはDeBERTaの多言語バージョンで、CC100多言語データで学習。
📚 ドキュメント
🔍 NLUタスクでのファインチューニング
ゼロショットクロス言語転送設定(英語データのみで学習し、他の言語でテスト)でのXNLIの開発結果を示します。
モデル |
平均 |
英語 |
フランス語 |
スペイン語 |
ドイツ語 |
ギリシャ語 |
ブルガリア語 |
ロシア語 |
トルコ語 |
アラビア語 |
ベトナム語 |
タイ語 |
中国語 |
ヒンディー語 |
スワヒリ語 |
ウルドゥー語 |
XLM-R-base |
76.2 |
85.8 |
79.7 |
80.7 |
78.7 |
77.5 |
79.6 |
78.1 |
74.2 |
73.8 |
76.5 |
74.6 |
76.7 |
72.4 |
66.5 |
68.3 |
mDeBERTa-base |
79.8±0.2 |
88.2 |
82.6 |
84.4 |
82.7 |
82.3 |
82.4 |
80.8 |
79.5 |
78.5 |
78.1 |
76.4 |
79.5 |
75.9 |
73.9 |
72.4 |
💻 使用例
基本的な使用法
HF transformersを用いたファインチューニングのコード例です。
#!/bin/bash
cd transformers/examples/pytorch/text-classification/
pip install datasets
output_dir="ds_results"
num_gpus=8
batch_size=4
python -m torch.distributed.launch --nproc_per_node=${num_gpus} \
run_xnli.py \
--model_name_or_path microsoft/mdeberta-v3-base \
--task_name $TASK_NAME \
--do_train \
--do_eval \
--train_language en \
--language en \
--evaluation_strategy steps \
--max_seq_length 256 \
--warmup_steps 3000 \
--per_device_train_batch_size ${batch_size} \
--learning_rate 2e-5 \
--num_train_epochs 6 \
--output_dir $output_dir \
--overwrite_output_dir \
--logging_steps 1000 \
--logging_dir $output_dir
📄 ライセンス
このプロジェクトはMITライセンスの下で公開されています。
引用
DeBERTaがあなたの研究に役立つ場合、以下の論文を引用してください。
@misc{he2021debertav3,
title={DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing},
author={Pengcheng He and Jianfeng Gao and Weizhu Chen},
year={2021},
eprint={2111.09543},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@inproceedings{
he2021deberta,
title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}