DeBERTa-v2-XXLargeオープンソースNLPモデル - BERTとRoBERTaを超える自然言語理解アシスタント

ホーム

Deberta V2 Xxlarge

microsoftによって開発

DeBERTa V2 XXLargeは、解耦注意力と強化マスクデコードに基づく改良型BERTモデルで、15億のパラメータを持ち、複数の自然言語理解タスクでBERTやRoBERTaを上回る性能を発揮します。

大規模言語モデル

Transformers

英語オープンソースライセンス:MIT #解耦注意力機構 #強化マスクデコード #15億パラメータ規模

ダウンロード数 9,179

リリース時間 : 3/2/2022

モデル概要

DeBERTaは、革新的な解耦注意力機構と強化型マスクデコーダーによってBERTアーキテクチャを改良しました。このXXLargeバージョンは48層のネットワークと1536次元の隠れ層を持ち、160GBの訓練データを使用しており、GLUEやSQuADなどのベンチマークテストで優れた性能を示しています。

モデル特徴

解耦注意力機構

内容と位置の注意力を分離して計算し、テキストの依存関係をより正確にモデル化します。

強化マスクデコーダー

改良されたマスク言語モデリング目標で、絶対位置情報を考慮することで予測能力を向上させます。

大規模事前学習

160GBの高品質テキストデータを使用して訓練し、より豊富な言語表現を学習します。

モデル能力

テキスト理解

意味解析

質問応答システム

テキスト分類

自然言語推論

使用事例

学術研究

GLUEベンチマークテスト

一般的な言語理解評価ベンチマークで最先端の性能を実現します。

MNLIの正解率91.7%、SST - 2の感情分析97.2%

産業応用

スマートカスタマーサービス

ユーザーのクエリ意図を理解し、応答を生成するために使用されます。

文書分析

契約書やレポートから自動的に分類し、重要な情報を抽出します。

🚀 DeBERTa: ディスエンタングルド・アテンションを用いたデコード強化型BERT

DeBERTaは、ディスエンタングルド・アテンションと強化型マスク・デコーダを用いて、BERTとRoBERTaモデルを改善します。80GBの学習データで、大多数の自然言語理解（NLU）タスクにおいてBERTやRoBERTaを上回る性能を発揮します。

詳細と更新情報については、公式リポジトリをご確認ください。

これは、48層、隠れ層サイズ1536のDeBERTa V2 xxlargeモデルです。総パラメータ数は15億で、160GBの生データで学習されています。

🚀 クイックスタート

このセクションでは、DeBERTaモデルの概要と、主な機能を紹介します。また、NLUタスクでの微調整結果や、モデルの実行方法、引用情報についても説明します。

✨ 主な機能

ディスエンタングルド・アテンションと強化型マスク・デコーダを用いて、BERTとRoBERTaモデルを改善。
大多数のNLUタスクにおいて、BERTやRoBERTaを上回る性能を発揮。

📦 インストール

Deepspeedを使用して実行する場合、以下のコマンドを実行して必要なパッケージをインストールします。

pip install datasets
pip install deepspeed

# ディープスピードの設定ファイルをダウンロード
wget https://huggingface.co/microsoft/deberta-v2-xxlarge/resolve/main/ds_config.json -O ds_config.json

💻 使用例

基本的な使用法

Deepspeedを使用してモデルを実行する例です。

export TASK_NAME=mnli
output_dir="ds_results"
num_gpus=8
batch_size=8
python -m torch.distributed.launch --nproc_per_node=${num_gpus} \
  run_glue.py \
  --model_name_or_path microsoft/deberta-v2-xxlarge \
  --task_name $TASK_NAME \
  --do_train \
  --do_eval \
  --max_seq_length 256 \
  --per_device_train_batch_size ${batch_size} \
  --learning_rate 3e-6 \
  --num_train_epochs 3 \
  --output_dir $output_dir \
  --overwrite_output_dir \
  --logging_steps 10 \
  --logging_dir $output_dir \
  --deepspeed ds_config.json

高度な使用法

--sharded_ddpを使用して実行する例です。

cd transformers/examples/text-classification/
export TASK_NAME=mnli
python -m torch.distributed.launch --nproc_per_node=8 run_glue.py   --model_name_or_path microsoft/deberta-v2-xxlarge   \
--task_name $TASK_NAME   --do_train   --do_eval   --max_seq_length 256   --per_device_train_batch_size 8   \
--learning_rate 3e-6   --num_train_epochs 3   --output_dir /tmp/$TASK_NAME/ --overwrite_output_dir --sharded_ddp --fp16

📚 ドキュメント

NLUタスクでの微調整

SQuAD 1.1/2.0およびいくつかのGLUEベンチマークタスクでの開発結果を示します。

モデル	SQuAD 1.1	SQuAD 2.0	MNLI-m/mm	SST-2	QNLI	CoLA	RTE	MRPC	QQP	STS-B
	F1/EM	F1/EM	正解率	正解率	正解率	MCC	正解率	正解率/F1	正解率/F1	P/S
BERT-Large	90.9/84.1	81.8/79.0	86.6/-	93.2	92.3	60.6	70.4	88.0/-	91.3/-	90.0/-
RoBERTa-Large	94.6/88.9	89.4/86.5	90.2/-	96.4	93.9	68.0	86.6	90.9/-	92.2/-	92.4/-
XLNet-Large	95.1/89.7	90.6/87.9	90.8/-	97.0	94.9	69.0	85.9	90.8/-	92.3/-	92.5/-
DeBERTa-Large¹	95.5/90.1	90.7/88.0	91.3/91.1	96.5	95.3	69.5	91.0	92.6/94.6	92.3/-	92.8/92.5
DeBERTa-XLarge¹	-/-	-/-	91.5/91.2	97.0	-	-	93.1	92.1/94.3	-	92.9/92.7
DeBERTa-V2-XLarge¹	95.8/90.8	91.4/88.9	91.7/91.6	97.5	95.8	71.1	93.9	92.0/94.2	92.3/89.8	92.9/92.9
DeBERTa-V2-XXLarge^1,2	96.1/91.4	92.2/89.7	91.7/91.9	97.2	96.0	72.0	93.5	93.1/94.9	92.7/90.3	93.2/93.1

注記

¹ RoBERTaに従い、RTE、MRPC、STS-Bについては、DeBERTa-Large-MNLI、DeBERTa-XLarge-MNLI、DeBERTa-V2-XLarge-MNLI、DeBERTa-V2-XXLarge-MNLIをベースにタスクを微調整します。SST-2/QQP/QNLI/SQuADv2の結果も、MNLIで微調整されたモデルから始めるとわずかに改善されますが、これら4つのタスクについては、事前学習されたベースモデルから微調整された数値のみを報告します。
² HF transformers で XXLarge モデルを試す場合は、高速でメモリを節約するため、deepspeed の使用をお勧めします。

引用

DeBERTaがあなたの研究に役立った場合は、以下の論文を引用してください。

@inproceedings{
he2021deberta,
title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}