deberta-v3-large开源自然语言处理模型 - 免费助力高效文本理解任务

首页

Deberta V3 Large

由 microsoft 开发

DeBERTaV3通过ELECTRA风格预训练与梯度解耦嵌入共享技术改进DeBERTa，在自然语言理解任务上表现优异

大型语言模型

Transformers

英语开源协议:MIT #ELECTRA风格预训练 #梯度解耦嵌入 #自然语言理解

下载量 343.39k

发布时间 : 3/2/2022

模型简介

DeBERTaV3是基于DeBERTa架构改进的大型语言模型，采用解耦注意力机制和增强型掩码解码器，通过ELECTRA风格预训练框架提升效率，适用于各类自然语言理解任务

模型特点

ELECTRA风格预训练

采用更高效的ELECTRA预训练框架替代传统MLM，提升训练效率

梯度解耦嵌入共享

创新性地解耦嵌入层梯度共享机制，优化模型参数学习

解耦注意力机制

将注意力机制分解为内容和位置两个独立矩阵，增强模型理解能力

增强型掩码解码器

改进的掩码语言模型解码器，更好地捕捉上下文依赖关系

模型能力

文本分类

问答系统

自然语言推理

语义理解

使用案例

自然语言处理

问答系统

用于构建高精度问答系统，如SQuAD 2.0任务

F1得分91.5，EM得分89.0

文本分类

应用于自然语言推理任务如MNLI

准确率91.8/91.9（匹配/不匹配）

🚀 DeBERTaV3：使用带梯度解耦嵌入共享的ELECTRA式预训练改进DeBERTa

DeBERTaV3通过带梯度解耦嵌入共享的ELECTRA式预训练改进了DeBERTa模型，提升了模型在下游任务中的性能。它在多个自然语言理解（NLU）任务上表现出色，为相关领域的研究和应用提供了更强大的工具。

✨ 主要特性

解耦注意力和增强掩码解码器：DeBERTa使用解耦注意力和增强掩码解码器改进了BERT和RoBERTa模型。凭借这两项改进，DeBERTa在使用80GB训练数据的大多数NLU任务上超越了RoBERTa。
ELECTRA式预训练和梯度解耦嵌入共享：在DeBERTa V3中，通过带梯度解耦嵌入共享的ELECTRA式预训练进一步提高了DeBERTa的效率。与DeBERTa相比，V3版本显著提升了模型在下游任务中的性能。

📦 安装指南

请查看官方仓库以获取更多实现细节和更新。

💻 使用示例

基础用法

在NLU任务上进行微调

以下是在SQuAD 2.0和MNLI任务上的开发结果：

模型	词汇量(K)	主干参数数量(M)	SQuAD 2.0(F1/EM)	MNLI-m/mm(准确率)
RoBERTa-large	50	304	89.4/86.5	90.2
XLNet-large	32	-	90.6/87.9	90.8
DeBERTa-large	50	-	90.7/88.0	91.3
DeBERTa-v3-large	128	304	91.5/89.0	91.8/91.9

高级用法

使用HF transformers进行微调

#!/bin/bash

cd transformers/examples/pytorch/text-classification/

pip install datasets
export TASK_NAME=mnli

output_dir="ds_results"

num_gpus=8

batch_size=8

python -m torch.distributed.launch --nproc_per_node=${num_gpus} \
  run_glue.py \
  --model_name_or_path microsoft/deberta-v3-large \
  --task_name $TASK_NAME \
  --do_train \
  --do_eval \
  --evaluation_strategy steps \
  --max_seq_length 256 \
  --warmup_steps 50 \
  --per_device_train_batch_size ${batch_size} \
  --learning_rate 6e-6 \
  --num_train_epochs 2 \
  --output_dir $output_dir \
  --overwrite_output_dir \
  --logging_steps 1000 \
  --logging_dir $output_dir

📚 详细文档

DeBERTa V3大模型有24层，隐藏层大小为1024。它有3.04亿个主干参数，词汇表包含12.8万个标记，在嵌入层引入了1.31亿个参数。该模型和DeBERTa V2一样，使用160GB数据进行训练。你可以从我们的论文中找到关于新模型的更多技术细节。

📄 许可证

本项目采用MIT许可证。

引用

如果您发现DeBERTa对您的工作有帮助，请引用以下论文：

@misc{he2021debertav3,
      title={DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing}, 
      author={Pengcheng He and Jianfeng Gao and Weizhu Chen},
      year={2021},
      eprint={2111.09543},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

@inproceedings{
he2021deberta,
title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}