开源DeBERTa-v3-large模型 - 能高效完成自然语言推理，验证准确率90%

首页

Deberta V3 Large Finetuned Mnli

由 mrm8488 开发

在GLUE MNLI数据集上微调的DeBERTa-v3-large模型，用于自然语言推理任务，验证集准确率达90%

文本分类

Transformers

英语开源协议:MIT #自然语言推理 #高准确率NLI #DeBERTa架构

下载量 31

发布时间 : 3/2/2022

模型简介

本模型是在GLUE MNLI数据集上对microsoft/deberta-v3-large进行微调的版本，专门用于自然语言推理(NLI)任务，可判断两个句子之间的逻辑关系（蕴含/矛盾/中立）

模型特点

解耦注意力机制

采用创新的解耦注意力机制，改进了传统BERT架构

增强型掩码解码器

通过增强型掩码解码器提升模型性能

ELECTRA风格预训练

V3版本采用ELECTRA风格的预训练方法，显著提升下游任务表现

高准确率

在MNLI验证集上达到90%的准确率

模型能力

自然语言推理

文本分类

句子关系判断

使用案例

文本分析

语义关系判断

判断两个句子之间是蕴含、矛盾还是中立关系

验证集准确率90%

🚀 DeBERTa-v3-large在MNLI上微调模型

本模型是 microsoft/deberta-v3-large 在GLUE MNLI数据集上的微调版本。它在评估集上取得了以下成果：

损失率：0.6763
准确率：0.8949

📚 详细文档

模型描述

DeBERTa 通过解耦注意力和增强掩码解码器改进了BERT和RoBERTa模型。借助这两项改进，DeBERTa在使用80GB训练数据的大多数自然语言理解（NLU）任务中优于RoBERTa。

在 DeBERTa V3 中，我们使用带有梯度解耦嵌入共享的ELECTRA风格预训练进一步提高了DeBERTa的效率。与DeBERTa相比，我们的V3版本显著提升了模型在下游任务中的性能。你可以从我们的论文中找到关于新模型的更多技术细节。

有关更多实现细节和更新，请查看官方仓库。

DeBERTa V3 large模型有24层，隐藏层大小为1024。它有3.04亿个骨干参数，词汇表包含12.8万个标记，这在嵌入层引入了1.31亿个参数。该模型与DeBERTa V2一样使用160GB数据进行训练。

预期用途与限制

暂无相关详细信息。

训练和评估数据

暂无相关详细信息。

训练过程

训练超参数

训练期间使用了以下超参数：

学习率：3e - 05
训练批次大小：16
评估批次大小：8
随机种子：42
优化器：Adam，β值为(0.9, 0.999)，ε值为1e - 08
学习率调度器类型：线性
训练轮数：5.0
混合精度训练：原生自动混合精度（Native AMP）

训练结果

训练损失	轮数	步数	验证损失	准确率
0.3676	1.0	24544	0.3761	0.8681
0.2782	2.0	49088	0.3605	0.8881
0.1986	3.0	73632	0.4672	0.8894
0.1299	4.0	98176	0.5248	0.8967
0.0643	5.0	122720	0.6489	0.8999

框架版本

Transformers 4.13.0.dev0
Pytorch 1.10.0 + cu111
Datasets 1.16.1
Tokenizers 0.10.3

📄 许可证

本模型采用MIT许可证。

📋 模型信息表格

属性	详情
模型类型	在GLUE MNLI数据集上微调的DeBERTa - v3 - large模型
训练数据	GLUE MNLI数据集
评估指标	准确率、损失率、精确率、召回率、F1值

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库