ZSD-microsoft-v2xxlmnli開源模型 - 增強文本理解，助力MNLI任務高效完成

首頁

ZSD Microsoft V2xxlmnli

由NDugar開發

基於解耦注意力機制的增強型BERT解碼模型，在MNLI任務上微調的大規模版本

大型語言模型

Transformers

英語開源協議:MIT #解耦注意力機制 #零樣本分類 #自然語言理解

下載量 59

發布時間 : 3/2/2022

模型概述

DeBERTa通過創新的解耦注意力機制和增強型掩碼解碼器改進了BERT架構，在多項自然語言理解任務上達到SOTA表現。此版本專門針對MNLI（多體裁自然語言推理）任務進行了微調。

模型特點

解耦注意力機制

將內容和位置注意力分離計算，顯著提升模型對複雜語言結構的理解能力

增強型掩碼解碼器

改進的掩碼語言建模方式，更好地捕捉詞語間的依賴關係

跨任務遷移能力

在MNLI上微調後可直接遷移到RTE/MRPC/STS-B等相似任務

模型能力

自然語言推理

文本分類

語義相似度計算

零樣本分類

使用案例

文本理解

多體裁文本推理

判斷兩段文本間的邏輯關係（蘊含/矛盾/中立）

在MNLI測試集達到91.7/91.9準確率

語義相似度分析

評估句子對之間的語義相似程度

在STS-B數據集達到93.2皮爾遜相關係數

遷移學習

小樣本任務適配

基於MNLI微調模型快速適配RTE等推理任務

在RTE任務達到93.5準確率

🚀 DeBERTa：具有解耦注意力的解碼增強型BERT

DeBERTa是一種基於Transformer架構的自然語言處理模型，它通過解耦注意力和增強的掩碼解碼器改進了BERT和RoBERTa模型。在使用80GB訓練數據的情況下，它在大多數自然語言理解（NLU）任務上的表現優於BERT和RoBERTa。

🚀 快速開始

本項目是針對多類型自然語言推理（MNLI）任務進行微調的DeBERTa大型模型。若需更多詳細信息和更新內容，請查看官方倉庫。

✨ 主要特性

解耦注意力機制：改進了傳統的注意力機制，提升了模型對語言的理解能力。
增強的掩碼解碼器：優化了掩碼語言模型的訓練過程，使模型能夠更好地學習語言的上下文信息。
優秀的性能表現：在多個NLU任務上超越了BERT和RoBERTa等模型。

📚 詳細文檔

🔍 NLU任務微調

我們展示了模型在SQuAD 1.1/2.0和幾個GLUE基準任務上的開發結果。

模型	SQuAD 1.1	SQuAD 2.0	MNLI-m/mm	SST-2	QNLI	CoLA	RTE	MRPC	QQP	STS-B
	F1/EM	F1/EM	Acc	Acc	Acc	MCC	Acc	Acc/F1	Acc/F1	P/S
BERT-Large	90.9/84.1	81.8/79.0	86.6/-	93.2	92.3	60.6	70.4	88.0/-	91.3/-	90.0/-
RoBERTa-Large	94.6/88.9	89.4/86.5	90.2/-	96.4	93.9	68.0	86.6	90.9/-	92.2/-	92.4/-
XLNet-Large	95.1/89.7	90.6/87.9	90.8/-	97.0	94.9	69.0	85.9	90.8/-	92.3/-	92.5/-
DeBERTa-Large¹	95.5/90.1	90.7/88.0	91.3/91.1	96.5	95.3	69.5	91.0	92.6/94.6	92.3/-	92.8/92.5
DeBERTa-XLarge¹	-/-	-/-	91.5/91.2	97.0	-	-	93.1	92.1/94.3	-	92.9/92.7
DeBERTa-V2-XLarge¹	95.8/90.8	91.4/88.9	91.7/91.6	97.5	95.8	71.1	93.9	92.0/94.2	92.3/89.8	92.9/92.9
DeBERTa-V2-XXLarge^1,2	96.1/91.4	92.2/89.7	91.7/91.9	97.2	96.0	72.0	93.5	93.1/94.9	92.7/90.3	93.2/93.1

📌 注意事項

¹ 遵循RoBERTa的做法，對於RTE、MRPC、STS - B任務，我們基於DeBERTa - Large - MNLI、DeBERTa - XLarge - MNLI、DeBERTa - V2 - XLarge - MNLI、DeBERTa - V2 - XXLarge - MNLI對這些任務進行微調。從MNLI微調模型開始時，SST - 2/QQP/QNLI/SQuADv2的結果也會略有提升，但我們僅報告了從預訓練基礎模型微調得到的結果。
² 若要使用**HF transformers嘗試XXLarge模型，你需要指定--sharded_ddp**。

cd transformers/examples/text-classification/
export TASK_NAME=mrpc
python -m torch.distributed.launch --nproc_per_node=8 run_glue.py   --model_name_or_path microsoft/deberta-v2-xxlarge   \
--task_name $TASK_NAME   --do_train   --do_eval   --max_seq_length 128   --per_device_train_batch_size 4   \
--learning_rate 3e-6   --num_train_epochs 3   --output_dir /tmp/$TASK_NAME/ --overwrite_output_dir --sharded_ddp --fp16

📖 引用

如果您發現DeBERTa對您的工作有幫助，請引用以下論文：

@inproceedings{
he2021deberta,
title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}