## 🚀 DeBERTaV3: ELECTRAスタイルの事前学習と勾配分離埋め込み共有を用いたDeBERTaの改善
[DeBERTa](https://arxiv.org/abs/2006.03654)は、分離型アテンションと強化マスクデコーダを使用して、BERTとRoBERTaモデルを改善します。これら2つの改善により、DeBERTaは80GBの学習データを使用して、大多数のNLUタスクでRoBERTaを上回ります。
[DeBERTa V3](https://arxiv.org/abs/2111.09543)では、勾配分離埋め込み共有を用いたELECTRAスタイルの事前学習を使用して、DeBERTaの効率をさらに向上させました。DeBERTaと比較して、V3バージョンは下流タスクでのモデル性能を大幅に向上させています。新しいモデルに関する詳細な技術情報は、[論文](https://arxiv.org/abs/2111.09543)から確認できます。
実装の詳細や更新情報については、[公式リポジトリ](https://github.com/microsoft/DeBERTa)をご確認ください。
DeBERTa V3ベースモデルは12層で、隠れ層のサイズは768です。語彙数が128Kトークンの埋め込み層に98Mのパラメータを導入した、バックボーンパラメータが86Mのモデルです。このモデルは、DeBERTa V2と同じく160GBのデータを使用して学習されました。
## 🚀 クイックスタート
このセクションでは、DeBERTaV3のクイックスタートについて説明します。
## ✨ 主な機能
- DeBERTaの分離型アテンションと強化マスクデコーダを利用し、性能を向上。
- ELECTRAスタイルの事前学習と勾配分離埋め込み共有を用いて、効率を改善。
- 下流タスクでの性能が大幅に向上。
## 📦 インストール
以下のコマンドを使用して、必要なライブラリをインストールします。
```bash
pip install datasets
💻 使用例
基本的な使用法
以下は、HF transformersを使用してDeBERTaV3を微調整する例です。
#!/bin/bash
cd transformers/examples/pytorch/text-classification/
pip install datasets
export TASK_NAME=mnli
output_dir="ds_results"
num_gpus=8
batch_size=8
python -m torch.distributed.launch --nproc_per_node=${num_gpus} \
run_glue.py \
--model_name_or_path microsoft/deberta-v3-base \
--task_name $TASK_NAME \
--do_train \
--do_eval \
--evaluation_strategy steps \
--max_seq_length 256 \
--warmup_steps 500 \
--per_device_train_batch_size ${batch_size} \
--learning_rate 2e-5 \
--num_train_epochs 3 \
--output_dir $output_dir \
--overwrite_output_dir \
--logging_steps 1000 \
--logging_dir $output_dir
📚 ドキュメント
NLUタスクでの微調整
以下は、SQuAD 2.0とMNLIタスクでの開発結果です。
モデル |
語彙数(K) |
バックボーンパラメータ数(M) |
SQuAD 2.0(F1/EM) |
MNLI-m/mm(ACC) |
RoBERTa-base |
50 |
86 |
83.7/80.5 |
87.6/- |
XLNet-base |
32 |
92 |
-/80.2 |
86.8/- |
ELECTRA-base |
30 |
86 |
-/80.5 |
88.8/ |
DeBERTa-base |
50 |
100 |
86.2/83.1 |
88.8/88.5 |
DeBERTa-v3-base |
128 |
86 |
88.4/85.4 |
90.6/90.7 |
DeBERTa-v3-base + SiFT |
128 |
86 |
-/- |
91.0/- |
以下は、SQuAD 1.1/2.0とMNLIタスクでの開発結果です。
引用
DeBERTaがあなたの研究に役立った場合は、以下の論文を引用してください。
@misc{he2021debertav3,
title={DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing},
author={Pengcheng He and Jianfeng Gao and Weizhu Chen},
year={2021},
eprint={2111.09543},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@inproceedings{
he2021deberta,
title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}
📄 ライセンス
このプロジェクトはMITライセンスの下で公開されています。
以上の出力は、指定されたREADMEを日文に翻訳し、美化規範に沿って構成したものです。必要な情報を保持し、視覚的に分かりやすい形式に整理しています。