mdeberta-v3-baseオープンソースAIモデル - 多言語処理に優れ、クロス言語タスクのパフォーマンスが良好

ホーム

Mdeberta V3 Base

microsoftによって開発

mDeBERTaはDeBERTaの多言語バージョンで、ELECTRA方式の事前学習と勾配脱結合埋め込み共有技術を採用し、XNLIなどのクロスランゲージタスクで優れた性能を発揮します。

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:MIT #多言語理解 #ゼロショット移行 #脱結合アテンション

ダウンロード数 692.08k

リリース時間 : 3/2/2022

モデル概要

DeBERTaアーキテクチャに基づく多言語事前学習モデルで、15種類の言語をサポートし、ゼロショットクロスランゲージ移行タスクでXLM - Rなどの同類のモデルを上回ります。

モデル特徴

勾配脱結合埋め込み共有

ELECTRA方式の事前学習方法を採用し、勾配脱結合技術により埋め込み層の共有効率を最適化します。

多言語サポート

15種類の言語処理をサポートし、XNLIクロスランゲージタスクでの平均正解率は79.8%に達します。

脱結合アテンションメカニズム

改良されたアテンションメカニズムが内容と位置情報の処理を分離し、モデルの理解能力を強化します。

モデル能力

多言語テキスト理解

ゼロショットクロスランゲージ移行

マスク付き言語モデリング

テキスト分類

使用事例

クロスランゲージ自然言語理解

XNLIゼロショット移行

英語データのみで学習した後、他の14種類の言語でテスト

平均正解率79.8%、XLM - R - baseの76.2%を上回ります。

多言語テキスト処理

多言語テキスト分類

15種類の言語のテキスト分類タスクをサポート

🚀 DeBERTaV3: ELECTRA-Style事前学習と勾配分離埋め込み共有を用いたDeBERTaの改善

DeBERTaは、分離型注意機構と強化されたマスクデコーダを用いて、BERTとRoBERTaモデルを改善しました。これら2つの改善により、DeBERTaは80GBの学習データを用いた大多数のNLUタスクでRoBERTaを上回っています。

DeBERTa V3では、ELECTRA-Style事前学習と勾配分離埋め込み共有を用いて、DeBERTaの効率をさらに向上させています。DeBERTaと比較して、V3バージョンは下流タスクでのモデル性能を大幅に向上させています。新しいモデルに関する詳細な技術情報は、論文から確認できます。

実装の詳細や更新情報については、公式リポジトリをご確認ください。

mDeBERTaはDeBERTaの多言語バージョンで、DeBERTaと同じ構造を持ち、CC100多言語データで学習されています。 mDeBERTa V3ベースモデルは12層で、隠れ層のサイズは768です。バックボーンパラメータは86Mで、語彙数は250Kトークンで、埋め込み層には190Mのパラメータが導入されています。このモデルは、XLM-Rと同じく2.5TのCC100データを用いて学習されています。

✨ 主な機能

DeBERTaは分離型注意機構と強化されたマスクデコーダを用いて、BERTとRoBERTaモデルを改善。
DeBERTa V3はELECTRA-Style事前学習と勾配分離埋め込み共有を用いて、DeBERTaの効率をさらに向上。
mDeBERTaはDeBERTaの多言語バージョンで、CC100多言語データで学習。

📚 ドキュメント

🔍 NLUタスクでのファインチューニング

ゼロショットクロス言語転送設定（英語データのみで学習し、他の言語でテスト）でのXNLIの開発結果を示します。

モデル	平均	英語	フランス語	スペイン語	ドイツ語	ギリシャ語	ブルガリア語	ロシア語	トルコ語	アラビア語	ベトナム語	タイ語	中国語	ヒンディー語	スワヒリ語	ウルドゥー語
XLM-R-base	76.2	85.8	79.7	80.7	78.7	77.5	79.6	78.1	74.2	73.8	76.5	74.6	76.7	72.4	66.5	68.3
mDeBERTa-base	79.8±0.2	88.2	82.6	84.4	82.7	82.3	82.4	80.8	79.5	78.5	78.1	76.4	79.5	75.9	73.9	72.4

💻 使用例

基本的な使用法

HF transformersを用いたファインチューニングのコード例です。

#!/bin/bash

cd transformers/examples/pytorch/text-classification/

pip install datasets

output_dir="ds_results"

num_gpus=8

batch_size=4

python -m torch.distributed.launch --nproc_per_node=${num_gpus} \
  run_xnli.py \
  --model_name_or_path microsoft/mdeberta-v3-base \
  --task_name $TASK_NAME \
  --do_train \
  --do_eval \
  --train_language en \
  --language en \
  --evaluation_strategy steps \
  --max_seq_length 256 \
  --warmup_steps 3000 \
  --per_device_train_batch_size ${batch_size} \
  --learning_rate 2e-5 \
  --num_train_epochs 6 \
  --output_dir $output_dir \
  --overwrite_output_dir \
  --logging_steps 1000 \
  --logging_dir $output_dir

📄 ライセンス

このプロジェクトはMITライセンスの下で公開されています。

引用

DeBERTaがあなたの研究に役立つ場合、以下の論文を引用してください。

@misc{he2021debertav3,
      title={DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing}, 
      author={Pengcheng He and Jianfeng Gao and Weizhu Chen},
      year={2021},
      eprint={2111.09543},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

@inproceedings{
he2021deberta,
title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}