deberta-v3-xsmallオープンソースモデル - 自然言語理解タスク処理を効率的にサポート

ホーム

Deberta V3 Xsmall

microsoftによって開発

DeBERTaV3はマイクロソフトが提案した改良版DeBERTaモデルで、ELECTRAスタイルの勾配分離埋め込み共有事前学習方法により効率を向上させ、自然言語理解タスクで優れた性能を発揮します。

大規模言語モデル

Transformers

英語オープンソースライセンス:MIT #注意機構の分離 #ELECTRAスタイルの事前学習 #効率的なパラメータ利用

ダウンロード数 87.40k

リリース時間 : 3/2/2022

モデル概要

DeBERTaV3は分離注意機構と強化型マスクデコーダを採用し、ELECTRAスタイルの事前学習方法と組み合わせることで、下流タスクにおけるモデルの性能を大幅に向上させました。

モデル特徴

勾配分離埋め込み共有

ELECTRAスタイルの事前学習方法を採用し、勾配分離技術により埋め込み共有メカニズムを最適化

分離注意機構

改良された注意機構により、内容と位置情報を別々に処理でき、モデルの理解能力を向上

効率的なパラメータ設計

xsmallバージョンはわずか2200万メインパラメータで、性能を維持しながらモデルサイズを大幅に削減

モデル能力

テキスト分類

質問応答システム

自然言語推論

使用事例

自然言語処理

質問応答システム

高性能な質問応答システムの構築に使用

SQuAD 2.0でF1スコア84.8、EMスコア82.0を達成

テキスト分類

自然言語推論タスクに使用

MNLIタスクで精度88.1/88.3(m/mm)を達成

🚀 DeBERTaV3: 勾配分離埋め込み共有を用いたELECTRAスタイルの事前学習によるDeBERTaの改善

DeBERTaは、分離型注意機構と強化されたマスクデコーダを使用して、BERTとRoBERTaモデルを改善します。これら2つの改善により、DeBERTaは80GBの学習データを使用して、大多数のNLUタスクでRoBERTaを上回ります。

DeBERTa V3では、勾配分離埋め込み共有を用いたELECTRAスタイルの事前学習を使用して、DeBERTaの効率をさらに改善しました。DeBERTaと比較して、V3バージョンは下流タスクでのモデル性能を大幅に向上させています。新しいモデルに関する詳細な技術情報は、論文を参照してください。

より詳細な実装情報と更新内容については、公式リポジトリを確認してください。

DeBERTa V3 xsmallモデルは12層で、隠れ層のサイズは384です。バックボーンのパラメータはわずか22Mで、語彙数は128Kトークンで、埋め込み層に48Mのパラメータが導入されています。このモデルは、DeBERTa V2と同じく160GBのデータを使用して学習されました。

🚀 クイックスタート

🔍 NLUタスクでの微調整

SQuAD 2.0とMNLIタスクの開発結果を提示します。

モデル	語彙数(K)	バックボーンパラメータ数(M)	SQuAD 2.0(F1/EM)	MNLI-m/mm(ACC)
RoBERTa-base	50	86	83.7/80.5	87.6/-
XLNet-base	32	92	-/80.2	86.8/-
ELECTRA-base	30	86	-/80.5	88.8/
DeBERTa-base	50	100	86.2/83.1	88.8/88.5
DeBERTa-v3-large	128	304	91.5/89.0	91.8/91.9
DeBERTa-v3-base	128	86	88.4/85.4	90.6/90.7
DeBERTa-v3-small	128	44	82.8/80.4	88.3/87.7
DeBERTa-v3-xsmall	128	22	84.8/82.0	88.1/88.3
DeBERTa-v3-xsmall+SiFT	128	22	-/-	88.4/88.5

💻 使用例

HFトランスフォーマーでの微調整

#!/bin/bash

cd transformers/examples/pytorch/text-classification/

pip install datasets
export TASK_NAME=mnli

output_dir="ds_results"

num_gpus=8

batch_size=8

python -m torch.distributed.launch --nproc_per_node=${num_gpus} \
  run_glue.py \
  --model_name_or_path microsoft/deberta-v3-xsmall \
  --task_name $TASK_NAME \
  --do_train \
  --do_eval \
  --evaluation_strategy steps \
  --max_seq_length 256 \
  --warmup_steps 1000 \
  --per_device_train_batch_size ${batch_size} \
  --learning_rate 4.5e-5 \
  --num_train_epochs 3 \
  --output_dir $output_dir \
  --overwrite_output_dir \
  --logging_steps 1000 \
  --logging_dir $output_dir

📚 ドキュメント

引用

DeBERTaがあなたの研究に役立った場合、以下の論文を引用してください。

@misc{he2021debertav3,
      title={DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing}, 
      author={Pengcheng He and Jianfeng Gao and Weizhu Chen},
      year={2021},
      eprint={2111.09543},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

@inproceedings{
he2021deberta,
title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}