deberta-v3-small開源自然語言理解模型 - 小參數量實現高效文本理解

首頁

Deberta V3 Small

由microsoft開發

DeBERTa-v3是微軟推出的改進版自然語言理解模型，通過ELECTRA風格預訓練和梯度解耦嵌入共享技術優化，在保持較小參數量的同時實現高效性能。

大型語言模型

Transformers

英語開源協議:MIT #解耦注意力機制 #ELECTRA風格預訓練 #輕量級NLU

下載量 189.23k

發布時間 : 3/2/2022

模型概述

DeBERTa-v3小型模型採用6層網絡結構，專注於自然語言理解任務，通過解耦注意力機制和增強型掩碼解碼器提升模型效率。

模型特點

ELECTRA風格預訓練

採用更高效的ELECTRA預訓練框架，提升模型訓練效率

梯度解耦嵌入共享

通過創新性的梯度解耦技術優化嵌入層參數共享

解耦注意力機制

改進的注意力機制能更好捕捉文本中的位置和內容信息

增強型掩碼解碼器

增強的掩碼語言建模能力提升模型理解性能

模型能力

文本分類

問答系統

自然語言推理

使用案例

文本理解

問答系統

應用於SQuAD等問答數據集

SQuAD 2.0上F1得分82.8

文本分類

應用於MNLI等自然語言推理任務

MNLI匹配/不匹配準確率88.3/87.7

🚀 DeBERTaV3：使用帶梯度解耦嵌入共享的 ELECTRA 式預訓練改進 DeBERTa

DeBERTaV3 藉助帶梯度解耦嵌入共享的 ELECTRA 式預訓練，進一步提升了 DeBERTa 的效率。該模型在下游任務上顯著優於 DeBERTa，為自然語言處理任務帶來了更強大的性能表現。

🚀 快速開始

請查看官方倉庫以獲取更多實現細節和更新。

✨ 主要特性

解耦注意力和增強掩碼解碼器：DeBERTa 使用解耦注意力和增強掩碼解碼器改進了 BERT 和 RoBERTa 模型。憑藉這兩項改進，DeBERTa 在使用 80GB 訓練數據的大多數 NLU 任務上超越了 RoBERTa。
ELECTRA 式預訓練和梯度解耦嵌入共享：在 DeBERTa V3 中，我們使用帶梯度解耦嵌入共享的 ELECTRA 式預訓練進一步提高了 DeBERTa 的效率。與 DeBERTa 相比，我們的 V3 版本顯著提高了模型在下游任務上的性能。你可以從我們的論文中找到有關新模型的更多技術細節。

📦 安裝指南

文檔未提及安裝步驟，可參考官方倉庫獲取安裝信息。

💻 使用示例

基礎用法

以下是使用 HF transformers 進行微調的示例：

#!/bin/bash

cd transformers/examples/pytorch/text-classification/

pip install datasets
export TASK_NAME=mnli

output_dir="ds_results"

num_gpus=8

batch_size=8

python -m torch.distributed.launch --nproc_per_node=${num_gpus} \
  run_glue.py \
  --model_name_or_path microsoft/deberta-v3-small \
  --task_name $TASK_NAME \
  --do_train \
  --do_eval \
  --evaluation_strategy steps \
  --max_seq_length 256 \
  --warmup_steps 1500 \
  --per_device_train_batch_size ${batch_size} \
  --learning_rate 4.5e-5 \
  --num_train_epochs 3 \
  --output_dir $output_dir \
  --overwrite_output_dir \
  --logging_steps 1000 \
  --logging_dir $output_dir

📚 詳細文檔

模型參數

DeBERTa V3 小模型有 6 層，隱藏層大小為 768。它有 4400 萬 個骨幹參數，詞彙表包含 12.8 萬個標記，這在嵌入層引入了 9800 萬個參數。該模型與 DeBERTa V2 一樣，使用 160GB 數據進行訓練。

微調結果

我們展示了在 SQuAD 2.0 和 MNLI 任務上的開發結果：

模型	詞彙表（K）	骨幹參數數量（M）	SQuAD 2.0（F1/EM）	MNLI-m/mm（ACC）
RoBERTa-base	50	86	83.7/80.5	87.6/-
XLNet-base	32	92	-/80.2	86.8/-
ELECTRA-base	30	86	-/80.5	88.8/
DeBERTa-base	50	100	86.2/83.1	88.8/88.5
DeBERTa-v3-large	128	304	91.5/89.0	91.8/91.9
DeBERTa-v3-base	128	86	88.4/85.4	90.6/90.7
DeBERTa-v3-small	128	44	82.8/80.4	88.3/87.7
DeBERTa-v3-small+SiFT	128	22	-/-	88.8/88.5

📄 許可證

本項目採用 MIT 許可證。

📖 引用

如果你發現 DeBERTa 對您的工作有用，請引用以下論文：

@misc{he2021debertav3,
      title={DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing}, 
      author={Pengcheng He and Jianfeng Gao and Weizhu Chen},
      year={2021},
      eprint={2111.09543},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

@inproceedings{
he2021deberta,
title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}