deberta-large-mnli-zero-cls开源自然语言理解模型

首页

Deberta Large Mnli Zero Cls

由 Narsil 开发

DeBERTa是基于解耦注意力机制的增强型BERT解码模型，通过改进注意力机制和掩码解码器，在多项自然语言理解任务上超越BERT和RoBERTa。

大型语言模型

Transformers

英语开源协议:MIT #解耦注意力机制 #自然语言理解 #增强型掩码解码

下载量 51.27k

发布时间 : 3/2/2022

模型简介

DeBERTa通过解耦注意力机制和增强型掩码解码器改进了BERT与RoBERTa模型，支持多种自然语言理解任务。

模型特点

解耦注意力机制

通过解耦注意力机制改进传统的注意力计算方式，提升模型性能。

增强型掩码解码器

采用增强型掩码解码器，进一步提升模型在自然语言理解任务中的表现。

高性能

在多项自然语言理解任务上超越BERT、RoBERTa和XLNet等模型。

模型能力

文本分类

问答系统

自然语言推理

语义相似度计算

使用案例

自然语言处理

文本分类

用于情感分析、主题分类等任务。

在SST-2数据集上准确率达到97.2%。

问答系统

用于构建高性能的问答系统。

在SQuAD 1.1数据集上F1得分为96.1，EM得分为91.4。

自然语言推理

用于判断两个句子之间的逻辑关系。

在MNLI数据集上准确率达到91.7/91.9（匹配/不匹配）。

🚀 DeBERTa：具有解耦注意力的解码增强型BERT

DeBERTa通过解耦注意力和增强掩码解码器改进了BERT和RoBERTa模型。在使用80GB训练数据的情况下，它在大多数自然语言理解（NLU）任务上的表现优于BERT和RoBERTa。

更多详细信息和更新请查看官方仓库。

这是针对多类型自然语言推理（MNLI）任务进行微调的DeBERTa大模型。

✨ 主要特性

模型改进：使用解耦注意力和增强掩码解码器改进BERT和RoBERTa模型。
性能优越：在多数NLU任务上表现优于BERT和RoBERTa。

📚 详细文档

NLU任务微调

我们展示了在SQuAD 1.1/2.0和几个GLUE基准任务上的开发结果。

模型	SQuAD 1.1	SQuAD 2.0	MNLI - m/mm	SST - 2	QNLI	CoLA	RTE	MRPC	QQP	STS - B
	F1/EM	F1/EM	Acc	Acc	Acc	MCC	Acc	Acc/F1	Acc/F1	P/S
BERT - Large	90.9/84.1	81.8/79.0	86.6/-	93.2	92.3	60.6	70.4	88.0/-	91.3/-	90.0/-
RoBERTa - Large	94.6/88.9	89.4/86.5	90.2/-	96.4	93.9	68.0	86.6	90.9/-	92.2/-	92.4/-
XLNet - Large	95.1/89.7	90.6/87.9	90.8/-	97.0	94.9	69.0	85.9	90.8/-	92.3/-	92.5/-
[DeBERTa - Large](https://huggingface.co/microsoft/deberta - large)¹	95.5/90.1	90.7/88.0	91.3/91.1	96.5	95.3	69.5	91.0	92.6/94.6	92.3/-	92.8/92.5
[DeBERTa - XLarge](https://huggingface.co/microsoft/deberta - xlarge)¹	-/-	-/-	91.5/91.2	97.0	-	-	93.1	92.1/94.3	-	92.9/92.7
[DeBERTa - V2 - XLarge](https://huggingface.co/microsoft/deberta - v2 - xlarge)¹	95.8/90.8	91.4/88.9	91.7/91.6	97.5	95.8	71.1	93.9	92.0/94.2	92.3/89.8	92.9/92.9
[DeBERTa - V2 - XXLarge](https://huggingface.co/microsoft/deberta - v2 - xxlarge)^1,2	96.1/91.4	92.2/89.7	91.7/91.9	97.2	96.0	72.0	93.5	93.1/94.9	92.7/90.3	93.2/93.1

注意事项

¹ 遵循RoBERTa的做法，对于RTE、MRPC、STS - B任务，我们基于[DeBERTa - Large - MNLI](https://huggingface.co/microsoft/deberta - large - mnli)、[DeBERTa - XLarge - MNLI](https://huggingface.co/microsoft/deberta - xlarge - mnli)、[DeBERTa - V2 - XLarge - MNLI](https://huggingface.co/microsoft/deberta - v2 - xlarge - mnli)、[DeBERTa - V2 - XXLarge - MNLI](https://huggingface.co/microsoft/deberta - v2 - xxlarge - mnli)对这些任务进行微调。从MNLI微调模型开始时，SST - 2/QQP/QNLI/SQuADv2的结果也会略有提升，但我们仅报告从预训练基础模型微调得到的结果。
² 要使用**HF transformers尝试XXLarge模型，你需要指定--sharded_ddp**。

cd transformers/examples/text - classification/
export TASK_NAME=mrpc
python -m torch.distributed.launch --nproc_per_node=8 run_glue.py   --model_name_or_path microsoft/deberta - v2 - xxlarge   \
--task_name $TASK_NAME   --do_train   --do_eval   --max_seq_length 128   --per_device_train_batch_size 4   \
--learning_rate 3e - 6   --num_train_epochs 3   --output_dir /tmp/$TASK_NAME/ --overwrite_output_dir --sharded_ddp --fp16

引用

如果你发现DeBERTa对你的工作有帮助，请引用以下论文：

@inproceedings{
he2021deberta,
title={DEBERTA: DECODING - ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}