ZSD-microsoft-v2xxlmnliオープンソースモデル - テキスト理解を強化し、MNLIタスクの効率的な完了を支援

ホーム

ZSD Microsoft V2xxlmnli

NDugarによって開発

解耦注意力機構に基づく強化型BERTデコードモデル、MNLIタスクで微調整された大規模バージョン

大規模言語モデル

Transformers

英語オープンソースライセンス:MIT #解耦注意力機構 #ゼロショット分類 #自然言語理解

ダウンロード数 59

リリース時間 : 3/2/2022

モデル概要

DeBERTaは革新的な解耦注意力機構と強化型マスクデコーダーによりBERTアーキテクチャを改良し、複数の自然言語理解タスクでSOTAの性能を達成しました。このバージョンはMNLI（多体裁自然言語推論）タスクに特化して微調整されています。

モデル特徴

解耦注意力機構

内容と位置の注意力を分離して計算し、モデルの複雑な言語構造に対する理解能力を大幅に向上させます

強化型マスクデコーダー

改良されたマスク言語モデリング方式で、単語間の依存関係をよりよく捉えます

クロスタスク移行能力

MNLIで微調整された後、RTE/MRPC/STS - Bなどの類似タスクに直接移行できます

モデル能力

自然言語推論

テキスト分類

意味的類似度計算

ゼロショット分類

使用事例

テキスト理解

多体裁テキスト推論

2つのテキスト間の論理関係（含意/矛盾/中立）を判断します

MNLIテストセットで91.7/91.9の正解率を達成

意味的類似度分析

文のペア間の意味的類似度を評価します

STS - Bデータセットで93.2のピアソン相関係数を達成

転移学習

少サンプルタスク適合

MNLIで微調整されたモデルを基に、RTEなどの推論タスクに迅速に適合させます

RTEタスクで93.5の正解率を達成

🚀 DeBERTa: 分離型アテンションを用いたデコード強化型BERT

DeBERTa は、分離型アテンションと強化型マスクデコーダを用いて、BERTとRoBERTaモデルを改善します。80GBの学習データを用いて、大多数の自然言語理解（NLU）タスクにおいて、BERTやRoBERTaを上回る性能を発揮します。詳細と更新情報については、公式リポジトリをご確認ください。これは、MNLIタスクでファインチューニングされたDeBERTa largeモデルです。

🚀 クイックスタート

このモデルは、自然言語理解タスクにおいて優れた性能を発揮するDeBERTaモデルの一つです。以下に、NLUタスクでのファインチューニング結果を示します。

✨ 主な機能

分離型アテンションと強化型マスクデコーダを用いて、BERTやRoBERTaを上回る性能を発揮します。
80GBの学習データを用いて、大多数のNLUタスクで高い精度を達成します。

📚 ドキュメント

自然言語理解タスクでのファインチューニング

SQuAD 1.1/2.0およびいくつかのGLUEベンチマークタスクでの開発結果を示します。

モデル	SQuAD 1.1	SQuAD 2.0	MNLI-m/mm	SST-2	QNLI	CoLA	RTE	MRPC	QQP	STS-B
	F1/EM	F1/EM	正解率	正解率	正解率	MCC	正解率	正解率/F1	正解率/F1	P/S
BERT-Large	90.9/84.1	81.8/79.0	86.6/-	93.2	92.3	60.6	70.4	88.0/-	91.3/-	90.0/-
RoBERTa-Large	94.6/88.9	89.4/86.5	90.2/-	96.4	93.9	68.0	86.6	90.9/-	92.2/-	92.4/-
XLNet-Large	95.1/89.7	90.6/87.9	90.8/-	97.0	94.9	69.0	85.9	90.8/-	92.3/-	92.5/-
DeBERTa-Large¹	95.5/90.1	90.7/88.0	91.3/91.1	96.5	95.3	69.5	91.0	92.6/94.6	92.3/-	92.8/92.5
DeBERTa-XLarge¹	-/-	-/-	91.5/91.2	97.0	-	-	93.1	92.1/94.3	-	92.9/92.7
DeBERTa-V2-XLarge¹	95.8/90.8	91.4/88.9	91.7/91.6	97.5	95.8	71.1	93.9	92.0/94.2	92.3/89.8	92.9/92.9
DeBERTa-V2-XXLarge^1,2	96.1/91.4	92.2/89.7	91.7/91.9	97.2	96.0	72.0	93.5	93.1/94.9	92.7/90.3	93.2/93.1

注釈

¹ RoBERTaに従い、RTE、MRPC、STS-Bについては、DeBERTa-Large-MNLI、DeBERTa-XLarge-MNLI、DeBERTa-V2-XLarge-MNLI、DeBERTa-V2-XXLarge-MNLI をベースにタスクをファインチューニングします。SST-2/QQP/QNLI/SQuADv2の結果も、MNLIでファインチューニングされたモデルから始めるとわずかに改善されますが、これら4つのタスクについては、事前学習されたベースモデルからファインチューニングされた数値のみを報告します。
² XXLarge モデルを HF transformers で試すには、--sharded_ddp を指定する必要があります。

cd transformers/examples/text-classification/
export TASK_NAME=mrpc
python -m torch.distributed.launch --nproc_per_node=8 run_glue.py   --model_name_or_path microsoft/deberta-v2-xxlarge   \
--task_name $TASK_NAME   --do_train   --do_eval   --max_seq_length 128   --per_device_train_batch_size 4   \
--learning_rate 3e-6   --num_train_epochs 3   --output_dir /tmp/$TASK_NAME/ --overwrite_output_dir --sharded_ddp --fp16

引用

もしあなたの研究にDeBERTaが役立った場合、以下の論文を引用してください。

@inproceedings{
he2021deberta,
title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}