deberta-v3-large開源自然語言處理模型 - 免費助力高效文本理解任務

首頁

Deberta V3 Large

由microsoft開發

DeBERTaV3通過ELECTRA風格預訓練與梯度解耦嵌入共享技術改進DeBERTa，在自然語言理解任務上表現優異

大型語言模型

Transformers

英語開源協議:MIT #ELECTRA風格預訓練 #梯度解耦嵌入 #自然語言理解

下載量 343.39k

發布時間 : 3/2/2022

模型概述

DeBERTaV3是基於DeBERTa架構改進的大型語言模型，採用解耦注意力機制和增強型掩碼解碼器，通過ELECTRA風格預訓練框架提升效率，適用於各類自然語言理解任務

模型特點

ELECTRA風格預訓練

採用更高效的ELECTRA預訓練框架替代傳統MLM，提升訓練效率

梯度解耦嵌入共享

創新性地解耦嵌入層梯度共享機制，優化模型參數學習

解耦注意力機制

將注意力機制分解為內容和位置兩個獨立矩陣，增強模型理解能力

增強型掩碼解碼器

改進的掩碼語言模型解碼器，更好地捕捉上下文依賴關係

模型能力

文本分類

問答系統

自然語言推理

語義理解

使用案例

自然語言處理

問答系統

用於構建高精度問答系統，如SQuAD 2.0任務

F1得分91.5，EM得分89.0

文本分類

應用於自然語言推理任務如MNLI

準確率91.8/91.9（匹配/不匹配）

🚀 DeBERTaV3：使用帶梯度解耦嵌入共享的ELECTRA式預訓練改進DeBERTa

DeBERTaV3通過帶梯度解耦嵌入共享的ELECTRA式預訓練改進了DeBERTa模型，提升了模型在下游任務中的性能。它在多個自然語言理解（NLU）任務上表現出色，為相關領域的研究和應用提供了更強大的工具。

✨ 主要特性

解耦注意力和增強掩碼解碼器：DeBERTa使用解耦注意力和增強掩碼解碼器改進了BERT和RoBERTa模型。憑藉這兩項改進，DeBERTa在使用80GB訓練數據的大多數NLU任務上超越了RoBERTa。
ELECTRA式預訓練和梯度解耦嵌入共享：在DeBERTa V3中，通過帶梯度解耦嵌入共享的ELECTRA式預訓練進一步提高了DeBERTa的效率。與DeBERTa相比，V3版本顯著提升了模型在下游任務中的性能。

📦 安裝指南

請查看官方倉庫以獲取更多實現細節和更新。

💻 使用示例

基礎用法

在NLU任務上進行微調

以下是在SQuAD 2.0和MNLI任務上的開發結果：

模型	詞彙量(K)	主幹參數數量(M)	SQuAD 2.0(F1/EM)	MNLI-m/mm(準確率)
RoBERTa-large	50	304	89.4/86.5	90.2
XLNet-large	32	-	90.6/87.9	90.8
DeBERTa-large	50	-	90.7/88.0	91.3
DeBERTa-v3-large	128	304	91.5/89.0	91.8/91.9

高級用法

使用HF transformers進行微調

#!/bin/bash

cd transformers/examples/pytorch/text-classification/

pip install datasets
export TASK_NAME=mnli

output_dir="ds_results"

num_gpus=8

batch_size=8

python -m torch.distributed.launch --nproc_per_node=${num_gpus} \
  run_glue.py \
  --model_name_or_path microsoft/deberta-v3-large \
  --task_name $TASK_NAME \
  --do_train \
  --do_eval \
  --evaluation_strategy steps \
  --max_seq_length 256 \
  --warmup_steps 50 \
  --per_device_train_batch_size ${batch_size} \
  --learning_rate 6e-6 \
  --num_train_epochs 2 \
  --output_dir $output_dir \
  --overwrite_output_dir \
  --logging_steps 1000 \
  --logging_dir $output_dir

📚 詳細文檔

DeBERTa V3大模型有24層，隱藏層大小為1024。它有3.04億個主幹參數，詞彙表包含12.8萬個標記，在嵌入層引入了1.31億個參數。該模型和DeBERTa V2一樣，使用160GB數據進行訓練。你可以從我們的論文中找到關於新模型的更多技術細節。

📄 許可證

本項目採用MIT許可證。

引用

如果您發現DeBERTa對您的工作有幫助，請引用以下論文：

@misc{he2021debertav3,
      title={DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing}, 
      author={Pengcheng He and Jianfeng Gao and Weizhu Chen},
      year={2021},
      eprint={2111.09543},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

@inproceedings{
he2021deberta,
title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}