deberta-v3-base開源語言模型 - 免費部署助力自然語言理解任務

首頁

Deberta V3 Base

由microsoft開發

DeBERTaV3是基於DeBERTa改進的預訓練語言模型，通過梯度解耦嵌入共享的ELECTRA風格預訓練方法提升效率，在自然語言理解任務上表現優異。

大型語言模型英語開源協議:MIT #解耦注意力 #ELECTRA風格預訓練 #自然語言理解

下載量 1.6M

發布時間 : 3/2/2022

模型概述

DeBERTaV3通過解耦注意力機制和增強型掩碼解碼器改進BERT與RoBERTa模型，採用ELECTRA風格預訓練進一步提升性能，適用於多種自然語言理解任務。

模型特點

解耦注意力機制

通過分離內容和位置注意力計算，更精確地建模文本依賴關係

ELECTRA風格預訓練

採用梯度解耦嵌入共享的ELECTRA預訓練方法，提升訓練效率

增強型掩碼解碼器

改進的掩碼語言建模機制，增強模型對上下文的捕捉能力

模型能力

文本分類

問答系統

自然語言推理

語義理解

使用案例

文本理解

問答系統

用於構建高精度問答系統

在SQuAD 2.0上F1得分88.4，EM得分85.4

文本分類

用於自然語言推理任務

在MNLI任務上準確率達90.6/90.7（匹配/不匹配）

🚀 DeBERTaV3：使用帶梯度解耦嵌入共享的ELECTRA式預訓練改進DeBERTa

DeBERTaV3模型基於ELECTRA式預訓練和梯度解耦嵌入共享技術，進一步提升了DeBERTa的效率和性能。在下游任務中，相較於DeBERTa，V3版本顯著提升了模型表現。

🚀 快速開始

微調NLU任務

我們展示了在SQuAD 2.0和MNLI任務上的開發結果。

模型	詞彙量(K)	骨幹參數數量(M)	SQuAD 2.0(F1/EM)	MNLI-m/mm(ACC)
RoBERTa-base	50	86	83.7/80.5	87.6/-
XLNet-base	32	92	-/80.2	86.8/-
ELECTRA-base	30	86	-/80.5	88.8/
DeBERTa-base	50	100	86.2/83.1	88.8/88.5
DeBERTa-v3-base	128	86	88.4/85.4	90.6/90.7
DeBERTa-v3-base + SiFT	128	86	-/-	91.0/-

我們還展示了在SQuAD 1.1/2.0和MNLI任務上的開發結果。

使用HF Transformers進行微調

#!/bin/bash

cd transformers/examples/pytorch/text-classification/

pip install datasets
export TASK_NAME=mnli

output_dir="ds_results"

num_gpus=8

batch_size=8

python -m torch.distributed.launch --nproc_per_node=${num_gpus} \
  run_glue.py \
  --model_name_or_path microsoft/deberta-v3-base \
  --task_name $TASK_NAME \
  --do_train \
  --do_eval \
  --evaluation_strategy steps \
  --max_seq_length 256 \
  --warmup_steps 500 \
  --per_device_train_batch_size ${batch_size} \
  --learning_rate 2e-5 \
  --num_train_epochs 3 \
  --output_dir $output_dir \
  --overwrite_output_dir \
  --logging_steps 1000 \
  --logging_dir $output_dir

✨ 主要特性

改進架構：DeBERTa通過解耦注意力和增強掩碼解碼器改進了BERT和RoBERTa模型。在80GB訓練數據的情況下，DeBERTa在大多數NLU任務上的表現優於RoBERTa。
效率提升：在DeBERTa V3中，使用帶梯度解耦嵌入共享的ELECTRA式預訓練進一步提高了DeBERTa的效率。與DeBERTa相比，V3版本在下游任務上顯著提升了模型性能。
模型參數：DeBERTa V3基礎模型有12層，隱藏層大小為768。它只有8600萬個骨幹參數，詞彙表包含12.8萬個標記，在嵌入層引入了9800萬個參數。該模型使用160GB數據進行訓練，與DeBERTa V2相同。

🔧 技術細節

你可以從我們的論文中找到關於新模型的更多技術細節。

📚 詳細文檔

請查看官方倉庫以獲取更多實現細節和更新。

📄 許可證

本項目採用MIT許可證。

引用

如果你發現DeBERTa對你的工作有用，請引用以下論文：

@misc{he2021debertav3,
      title={DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing}, 
      author={Pengcheng He and Jianfeng Gao and Weizhu Chen},
      year={2021},
      eprint={2111.09543},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

@inproceedings{
he2021deberta,
title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}