deberta-v2-xxlarge開源NLP模型 - 超越BERT和RoBERTa的自然語言理解助手

首頁

Deberta V2 Xxlarge

由microsoft開發

DeBERTa V2 XXLarge是基於解耦注意力與增強掩碼解碼的改進型BERT模型，具有15億參數，在多項自然語言理解任務上超越BERT和RoBERTa表現

大型語言模型

Transformers

英語開源協議:MIT #解耦注意力機制 #增強掩碼解碼 #15億參數規模

下載量 9,179

發布時間 : 3/2/2022

模型概述

DeBERTa通過創新的解耦注意力機制和增強型掩碼解碼器改進了BERT架構，該XXLarge版本具有48層網絡和1536維隱藏層，訓練數據達160GB，在GLUE和SQuAD等基準測試中表現優異

模型特點

解耦注意力機制

將內容和位置注意力分離計算，更精確建模文本依賴關係

增強掩碼解碼器

改進的掩碼語言建模目標，考慮絕對位置信息提升預測能力

大規模預訓練

使用160GB高質量文本數據進行訓練，學習更豐富的語言表示

模型能力

文本理解

語義分析

問答系統

文本分類

自然語言推理

使用案例

學術研究

GLUE基準測試

在通用語言理解評估基準上實現最先進性能

MNLI準確率91.7%，SST-2情感分析97.2%

工業應用

智能客服

用於理解用戶查詢意圖和生成響應

文檔分析

自動分類和提取合同/報告中的關鍵信息

🚀 DeBERTa：具有解耦注意力的解碼增強型BERT

DeBERTa（論文鏈接）通過解耦注意力和增強掩碼解碼器改進了BERT和RoBERTa模型。在使用80GB訓練數據的情況下，它在大多數自然語言理解（NLU）任務上的表現優於BERT和RoBERTa。

更多詳細信息和更新請查看官方倉庫。

這是DeBERTa V2 xxlarge模型，具有48層，隱藏層大小為1536。總參數為15億，使用160GB原始數據進行訓練。

🚀 快速開始

本項目的DeBERTa模型在多個自然語言理解任務上有出色表現，下面將為你介紹其微調結果、運行方式等內容。

✨ 主要特性

模型改進：使用解耦注意力和增強掩碼解碼器改進了BERT和RoBERTa模型。
性能優越：在大多數NLU任務上優於BERT和RoBERTa。
多規模模型：有不同規模的模型可供選擇，如Large、XLarge、V2-XLarge、V2-XXLarge等。

📦 安裝指南

運行模型前，你需要安裝以下依賴：

pip install datasets
pip install deepspeed

💻 使用示例

基礎用法

使用Deepspeed運行模型：

# 下載deepspeed配置文件
wget https://huggingface.co/microsoft/deberta-v2-xxlarge/resolve/main/ds_config.json -O ds_config.json

export TASK_NAME=mnli
output_dir="ds_results"
num_gpus=8
batch_size=8
python -m torch.distributed.launch --nproc_per_node=${num_gpus} \
  run_glue.py \
  --model_name_or_path microsoft/deberta-v2-xxlarge \
  --task_name $TASK_NAME \
  --do_train \
  --do_eval \
  --max_seq_length 256 \
  --per_device_train_batch_size ${batch_size} \
  --learning_rate 3e-6 \
  --num_train_epochs 3 \
  --output_dir $output_dir \
  --overwrite_output_dir \
  --logging_steps 10 \
  --logging_dir $output_dir \
  --deepspeed ds_config.json

高級用法

使用--sharded_ddp運行：

cd transformers/examples/text-classification/
export TASK_NAME=mnli
python -m torch.distributed.launch --nproc_per_node=8 run_glue.py   --model_name_or_path microsoft/deberta-v2-xxlarge   \
--task_name $TASK_NAME   --do_train   --do_eval   --max_seq_length 256   --per_device_train_batch_size 8   \
--learning_rate 3e-6   --num_train_epochs 3   --output_dir /tmp/$TASK_NAME/ --overwrite_output_dir --sharded_ddp --fp16

📚 詳細文檔

微調結果

我們展示了在SQuAD 1.1/2.0和幾個GLUE基準任務上的開發結果：

模型	SQuAD 1.1	SQuAD 2.0	MNLI-m/mm	SST-2	QNLI	CoLA	RTE	MRPC	QQP	STS-B
	F1/EM	F1/EM	Acc	Acc	Acc	MCC	Acc	Acc/F1	Acc/F1	P/S
BERT-Large	90.9/84.1	81.8/79.0	86.6/-	93.2	92.3	60.6	70.4	88.0/-	91.3/-	90.0/-
RoBERTa-Large	94.6/88.9	89.4/86.5	90.2/-	96.4	93.9	68.0	86.6	90.9/-	92.2/-	92.4/-
XLNet-Large	95.1/89.7	90.6/87.9	90.8/-	97.0	94.9	69.0	85.9	90.8/-	92.3/-	92.5/-
DeBERTa-Large¹	95.5/90.1	90.7/88.0	91.3/91.1	96.5	95.3	69.5	91.0	92.6/94.6	92.3/-	92.8/92.5
DeBERTa-XLarge¹	-/-	-/-	91.5/91.2	97.0	-	-	93.1	92.1/94.3	-	92.9/92.7
DeBERTa-V2-XLarge¹	95.8/90.8	91.4/88.9	91.7/91.6	97.5	95.8	71.1	93.9	92.0/94.2	92.3/89.8	92.9/92.9
DeBERTa-V2-XXLarge^1,2	96.1/91.4	92.2/89.7	91.7/91.9	97.2	96.0	72.0	93.5	93.1/94.9	92.7/90.3	93.2/93.1

注意事項

¹ 遵循RoBERTa，對於RTE、MRPC、STS-B，我們基於DeBERTa-Large-MNLI、DeBERTa-XLarge-MNLI、DeBERTa-V2-XLarge-MNLI、DeBERTa-V2-XXLarge-MNLI對這些任務進行微調。從MNLI微調模型開始時，SST-2/QQP/QNLI/SQuADv2的結果也會略有改善，但我們僅報告從預訓練基礎模型微調得到的結果。
² 要使用**HF transformers嘗試XXLarge模型，我們建議使用deepspeed**，因為它更快且節省內存。

📄 許可證

本項目採用MIT許可證。

引用

如果你發現DeBERTa對你的工作有用，請引用以下論文：

@inproceedings{
he2021deberta,
title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}