deberta-v3-baseオープンソース言語モデル - 無料でのデプロイで自然言語理解タスクをサポート

ホーム

Deberta V3 Base

microsoftによって開発

DeBERTaV3はDeBERTaを改良した事前学習言語モデルで、勾配分離埋め込み共有のELECTRAスタイル事前学習手法により効率を向上させ、自然言語理解タスクで優れた性能を発揮します。

大規模言語モデル英語オープンソースライセンス:MIT #注意の分離 #ELECTRAスタイル事前学習 #自然言語理解

ダウンロード数 1.6M

リリース時間 : 3/2/2022

モデル概要

DeBERTaV3は注意機構の分離と強化型マスクデコーダによりBERTとRoBERTaモデルを改良し、ELECTRAスタイル事前学習を採用してさらに性能を向上させ、様々な自然言語理解タスクに適しています。

モデル特徴

注意機構の分離

内容と位置の注意計算を分離することで、テキスト依存関係をより正確にモデル化

ELECTRAスタイル事前学習

勾配分離埋め込み共有のELECTRA事前学習手法を採用し、学習効率を向上

強化型マスクデコーダ

改良されたマスク言語モデリング機構により、文脈把握能力を強化

モデル能力

テキスト分類

質問応答システム

自然言語推論

意味理解

使用事例

テキスト理解

質問応答システム

高精度質問応答システムの構築に使用

SQuAD 2.0でF1スコア88.4、EMスコア85.4

テキスト分類

自然言語推論タスクに使用

MNLIタスクで精度90.6/90.7（一致/不一致）

## 🚀 DeBERTaV3: ELECTRAスタイルの事前学習と勾配分離埋め込み共有を用いたDeBERTaの改善

[DeBERTa](https://arxiv.org/abs/2006.03654)は、分離型アテンションと強化マスクデコーダを使用して、BERTとRoBERTaモデルを改善します。これら2つの改善により、DeBERTaは80GBの学習データを使用して、大多数のNLUタスクでRoBERTaを上回ります。

[DeBERTa V3](https://arxiv.org/abs/2111.09543)では、勾配分離埋め込み共有を用いたELECTRAスタイルの事前学習を使用して、DeBERTaの効率をさらに向上させました。DeBERTaと比較して、V3バージョンは下流タスクでのモデル性能を大幅に向上させています。新しいモデルに関する詳細な技術情報は、[論文](https://arxiv.org/abs/2111.09543)から確認できます。

実装の詳細や更新情報については、[公式リポジトリ](https://github.com/microsoft/DeBERTa)をご確認ください。

DeBERTa V3ベースモデルは12層で、隠れ層のサイズは768です。語彙数が128Kトークンの埋め込み層に98Mのパラメータを導入した、バックボーンパラメータが86Mのモデルです。このモデルは、DeBERTa V2と同じく160GBのデータを使用して学習されました。

## 🚀 クイックスタート
このセクションでは、DeBERTaV3のクイックスタートについて説明します。

## ✨ 主な機能
- DeBERTaの分離型アテンションと強化マスクデコーダを利用し、性能を向上。
- ELECTRAスタイルの事前学習と勾配分離埋め込み共有を用いて、効率を改善。
- 下流タスクでの性能が大幅に向上。

## 📦 インストール
以下のコマンドを使用して、必要なライブラリをインストールします。
```bash
pip install datasets

💻 使用例

基本的な使用法

以下は、HF transformersを使用してDeBERTaV3を微調整する例です。

#!/bin/bash

cd transformers/examples/pytorch/text-classification/

pip install datasets
export TASK_NAME=mnli

output_dir="ds_results"

num_gpus=8

batch_size=8

python -m torch.distributed.launch --nproc_per_node=${num_gpus} \
  run_glue.py \
  --model_name_or_path microsoft/deberta-v3-base \
  --task_name $TASK_NAME \
  --do_train \
  --do_eval \
  --evaluation_strategy steps \
  --max_seq_length 256 \
  --warmup_steps 500 \
  --per_device_train_batch_size ${batch_size} \
  --learning_rate 2e-5 \
  --num_train_epochs 3 \
  --output_dir $output_dir \
  --overwrite_output_dir \
  --logging_steps 1000 \
  --logging_dir $output_dir

📚 ドキュメント

NLUタスクでの微調整

以下は、SQuAD 2.0とMNLIタスクでの開発結果です。

モデル	語彙数(K)	バックボーンパラメータ数(M)	SQuAD 2.0(F1/EM)	MNLI-m/mm(ACC)
RoBERTa-base	50	86	83.7/80.5	87.6/-
XLNet-base	32	92	-/80.2	86.8/-
ELECTRA-base	30	86	-/80.5	88.8/
DeBERTa-base	50	100	86.2/83.1	88.8/88.5
DeBERTa-v3-base	128	86	88.4/85.4	90.6/90.7
DeBERTa-v3-base + SiFT	128	86	-/-	91.0/-

以下は、SQuAD 1.1/2.0とMNLIタスクでの開発結果です。

引用

DeBERTaがあなたの研究に役立った場合は、以下の論文を引用してください。

@misc{he2021debertav3,
      title={DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing}, 
      author={Pengcheng He and Jianfeng Gao and Weizhu Chen},
      year={2021},
      eprint={2111.09543},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

@inproceedings{
he2021deberta,
title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}