mdeberta-v3-base开源AI模型 - 多语言处理佳，跨语言任务表现优异

首页

Mdeberta V3 Base

由 microsoft 开发

mDeBERTa是DeBERTa的多语言版本，采用ELECTRA式预训练与梯度解耦嵌入共享技术，在XNLI等跨语言任务中表现优异

大型语言模型

Transformers

支持多种语言开源协议:MIT #多语言理解 #零样本迁移 #解耦注意力

下载量 692.08k

发布时间 : 3/2/2022

模型简介

基于DeBERTa架构的多语言预训练模型，支持15种语言，在零样本跨语言迁移任务中超越XLM-R等同类模型

模型特点

梯度解耦嵌入共享

采用ELECTRA式预训练方法，通过梯度解耦技术优化嵌入层共享效率

多语言支持

支持15种语言处理，在XNLI跨语言任务中平均准确率达79.8%

解耦注意力机制

改进的注意力机制分离内容和位置信息处理，增强模型理解能力

模型能力

多语言文本理解

零样本跨语言迁移

掩码语言建模

文本分类

使用案例

跨语言自然语言理解

XNLI零样本迁移

仅用英语数据训练后在其他14种语言测试

平均准确率79.8%，超越XLM-R-base的76.2%

多语言文本处理

多语言文本分类

支持15种语言的文本分类任务

🚀 DeBERTaV3：使用带梯度解耦嵌入共享的 ELECTRA 风格预训练改进 DeBERTa

DeBERTaV3 借助带梯度解耦嵌入共享的 ELECTRA 风格预训练，进一步提升了 DeBERTa 的效率。与 DeBERTa 相比，V3 版本在下游任务上显著提高了模型性能。mDeBERTa 是 DeBERTa 的多语言版本，使用与 DeBERTa 相同的结构，并使用 CC100 多语言数据进行训练。

✨ 主要特性

改进架构：DeBERTa 通过解耦注意力和增强掩码解码器改进了 BERT 和 RoBERTa 模型。在 80GB 训练数据的情况下，DeBERTa 在大多数 NLU 任务上优于 RoBERTa。
效率提升：在 DeBERTa V3 中，使用带梯度解耦嵌入共享的 ELECTRA 风格预训练进一步提高了 DeBERTa 的效率。
多语言支持：mDeBERTa 是 DeBERTa 的多语言版本，使用 CC100 多语言数据进行训练。

📚 详细文档

模型概述

DeBERTa 通过解耦注意力和增强掩码解码器改进了 BERT 和 RoBERTa 模型。在 80GB 训练数据的情况下，DeBERTa 在大多数 NLU 任务上优于 RoBERTa。在 DeBERTa V3 中，我们使用带梯度解耦嵌入共享的 ELECTRA 风格预训练进一步提高了 DeBERTa 的效率。与 DeBERTa 相比，我们的 V3 版本在下游任务上显著提高了模型性能。你可以从我们的论文中找到关于新模型的更多技术细节。

mDeBERTa 是 DeBERTa 的多语言版本，使用与 DeBERTa 相同的结构，并使用 CC100 多语言数据进行训练。mDeBERTa V3 基础模型有 12 层，隐藏层大小为 768。它有 8600 万个骨干参数，词汇表包含 25 万个标记，在嵌入层引入了 1.9 亿个参数。该模型使用 2.5T 的 CC100 数据进行训练，与 XLM - R 相同。

微调实验

NLU 任务微调

我们展示了在 XNLI 上零样本跨语言迁移设置下的开发结果，即仅使用英语数据进行训练，在其他语言上进行测试。

模型	平均	英语	法语	西班牙语	德语	希腊语	保加利亚语	俄语	土耳其语	阿拉伯语	越南语	泰语	中文	印地语	斯瓦希里语	乌尔都语
XLM - R - base	76.2	85.8	79.7	80.7	78.7	77.5	79.6	78.1	74.2	73.8	76.5	74.6	76.7	72.4	66.5	68.3
mDeBERTa - base	79.8 +/- 0.2	88.2	82.6	84.4	82.7	82.3	82.4	80.8	79.5	78.5	78.1	76.4	79.5	75.9	73.9	72.4

使用 HF Transformers 进行微调

#!/bin/bash

cd transformers/examples/pytorch/text - classification/

pip install datasets

output_dir="ds_results"

num_gpus=8

batch_size=4

python -m torch.distributed.launch --nproc_per_node=${num_gpus} \
  run_xnli.py \
  --model_name_or_path microsoft/mdeberta - v3 - base \
  --task_name $TASK_NAME \
  --do_train \
  --do_eval \
  --train_language en \
  --language en \
  --evaluation_strategy steps \
  --max_seq_length 256 \
  --warmup_steps 3000 \
  --per_device_train_batch_size ${batch_size} \
  --learning_rate 2e - 5 \
  --num_train_epochs 6 \
  --output_dir $output_dir \
  --overwrite_output_dir \
  --logging_steps 1000 \
  --logging_dir $output_dir

引用

如果你发现 DeBERTa 对你的工作有用，请引用以下论文：

@misc{he2021debertav3,
      title={DeBERTaV3: Improving DeBERTa using ELECTRA - Style Pre - Training with Gradient - Disentangled Embedding Sharing}, 
      author={Pengcheng He and Jianfeng Gao and Weizhu Chen},
      year={2021},
      eprint={2111.09543},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

@inproceedings{
he2021deberta,
title={DEBERTA: DECODING - ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}