mdeberta-v3-base開源AI模型 - 多語言處理佳，跨語言任務表現優異

首頁

Mdeberta V3 Base

由microsoft開發

mDeBERTa是DeBERTa的多語言版本，採用ELECTRA式預訓練與梯度解耦嵌入共享技術，在XNLI等跨語言任務中表現優異

大型語言模型

Transformers

支持多種語言開源協議:MIT #多語言理解 #零樣本遷移 #解耦注意力

下載量 692.08k

發布時間 : 3/2/2022

模型概述

基於DeBERTa架構的多語言預訓練模型，支持15種語言，在零樣本跨語言遷移任務中超越XLM-R等同類模型

模型特點

梯度解耦嵌入共享

採用ELECTRA式預訓練方法，通過梯度解耦技術優化嵌入層共享效率

多語言支持

支持15種語言處理，在XNLI跨語言任務中平均準確率達79.8%

解耦注意力機制

改進的注意力機制分離內容和位置信息處理，增強模型理解能力

模型能力

多語言文本理解

零樣本跨語言遷移

掩碼語言建模

文本分類

使用案例

跨語言自然語言理解

XNLI零樣本遷移

僅用英語數據訓練後在其他14種語言測試

平均準確率79.8%，超越XLM-R-base的76.2%

多語言文本處理

多語言文本分類

支持15種語言的文本分類任務

🚀 DeBERTaV3：使用帶梯度解耦嵌入共享的 ELECTRA 風格預訓練改進 DeBERTa

DeBERTaV3 藉助帶梯度解耦嵌入共享的 ELECTRA 風格預訓練，進一步提升了 DeBERTa 的效率。與 DeBERTa 相比，V3 版本在下游任務上顯著提高了模型性能。mDeBERTa 是 DeBERTa 的多語言版本，使用與 DeBERTa 相同的結構，並使用 CC100 多語言數據進行訓練。

✨ 主要特性

改進架構：DeBERTa 通過解耦注意力和增強掩碼解碼器改進了 BERT 和 RoBERTa 模型。在 80GB 訓練數據的情況下，DeBERTa 在大多數 NLU 任務上優於 RoBERTa。
效率提升：在 DeBERTa V3 中，使用帶梯度解耦嵌入共享的 ELECTRA 風格預訓練進一步提高了 DeBERTa 的效率。
多語言支持：mDeBERTa 是 DeBERTa 的多語言版本，使用 CC100 多語言數據進行訓練。

📚 詳細文檔

模型概述

DeBERTa 通過解耦注意力和增強掩碼解碼器改進了 BERT 和 RoBERTa 模型。在 80GB 訓練數據的情況下，DeBERTa 在大多數 NLU 任務上優於 RoBERTa。在 DeBERTa V3 中，我們使用帶梯度解耦嵌入共享的 ELECTRA 風格預訓練進一步提高了 DeBERTa 的效率。與 DeBERTa 相比，我們的 V3 版本在下游任務上顯著提高了模型性能。你可以從我們的論文中找到關於新模型的更多技術細節。

mDeBERTa 是 DeBERTa 的多語言版本，使用與 DeBERTa 相同的結構，並使用 CC100 多語言數據進行訓練。mDeBERTa V3 基礎模型有 12 層，隱藏層大小為 768。它有 8600 萬個骨幹參數，詞彙表包含 25 萬個標記，在嵌入層引入了 1.9 億個參數。該模型使用 2.5T 的 CC100 數據進行訓練，與 XLM - R 相同。

微調實驗

NLU 任務微調

我們展示了在 XNLI 上零樣本跨語言遷移設置下的開發結果，即僅使用英語數據進行訓練，在其他語言上進行測試。

模型	平均	英語	法語	西班牙語	德語	希臘語	保加利亞語	俄語	土耳其語	阿拉伯語	越南語	泰語	中文	印地語	斯瓦希里語	烏爾都語
XLM - R - base	76.2	85.8	79.7	80.7	78.7	77.5	79.6	78.1	74.2	73.8	76.5	74.6	76.7	72.4	66.5	68.3
mDeBERTa - base	79.8 +/- 0.2	88.2	82.6	84.4	82.7	82.3	82.4	80.8	79.5	78.5	78.1	76.4	79.5	75.9	73.9	72.4

使用 HF Transformers 進行微調

#!/bin/bash

cd transformers/examples/pytorch/text - classification/

pip install datasets

output_dir="ds_results"

num_gpus=8

batch_size=4

python -m torch.distributed.launch --nproc_per_node=${num_gpus} \
  run_xnli.py \
  --model_name_or_path microsoft/mdeberta - v3 - base \
  --task_name $TASK_NAME \
  --do_train \
  --do_eval \
  --train_language en \
  --language en \
  --evaluation_strategy steps \
  --max_seq_length 256 \
  --warmup_steps 3000 \
  --per_device_train_batch_size ${batch_size} \
  --learning_rate 2e - 5 \
  --num_train_epochs 6 \
  --output_dir $output_dir \
  --overwrite_output_dir \
  --logging_steps 1000 \
  --logging_dir $output_dir

引用

如果你發現 DeBERTa 對你的工作有用，請引用以下論文：

@misc{he2021debertav3,
      title={DeBERTaV3: Improving DeBERTa using ELECTRA - Style Pre - Training with Gradient - Disentangled Embedding Sharing}, 
      author={Pengcheng He and Jianfeng Gao and Weizhu Chen},
      year={2021},
      eprint={2111.09543},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

@inproceedings{
he2021deberta,
title={DEBERTA: DECODING - ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}