開源DeBERTa-v3-large模型 - 能高效完成自然語言推理，驗證準確率90%

首頁

Deberta V3 Large Finetuned Mnli

由mrm8488開發

在GLUE MNLI數據集上微調的DeBERTa-v3-large模型，用於自然語言推理任務，驗證集準確率達90%

文本分類

Transformers

英語開源協議:MIT #自然語言推理 #高準確率NLI #DeBERTa架構

下載量 31

發布時間 : 3/2/2022

模型概述

本模型是在GLUE MNLI數據集上對microsoft/deberta-v3-large進行微調的版本，專門用於自然語言推理(NLI)任務，可判斷兩個句子之間的邏輯關係（蘊含/矛盾/中立）

模型特點

解耦注意力機制

採用創新的解耦注意力機制，改進了傳統BERT架構

增強型掩碼解碼器

通過增強型掩碼解碼器提升模型性能

ELECTRA風格預訓練

V3版本採用ELECTRA風格的預訓練方法，顯著提升下游任務表現

高準確率

在MNLI驗證集上達到90%的準確率

模型能力

自然語言推理

文本分類

句子關係判斷

使用案例

文本分析

語義關係判斷

判斷兩個句子之間是蘊含、矛盾還是中立關係

驗證集準確率90%

🚀 DeBERTa-v3-large在MNLI上微調模型

本模型是 microsoft/deberta-v3-large 在GLUE MNLI數據集上的微調版本。它在評估集上取得了以下成果：

損失率：0.6763
準確率：0.8949

📚 詳細文檔

模型描述

DeBERTa 通過解耦注意力和增強掩碼解碼器改進了BERT和RoBERTa模型。藉助這兩項改進，DeBERTa在使用80GB訓練數據的大多數自然語言理解（NLU）任務中優於RoBERTa。

在 DeBERTa V3 中，我們使用帶有梯度解耦嵌入共享的ELECTRA風格預訓練進一步提高了DeBERTa的效率。與DeBERTa相比，我們的V3版本顯著提升了模型在下游任務中的性能。你可以從我們的論文中找到關於新模型的更多技術細節。

有關更多實現細節和更新，請查看官方倉庫。

DeBERTa V3 large模型有24層，隱藏層大小為1024。它有3.04億個骨幹參數，詞彙表包含12.8萬個標記，這在嵌入層引入了1.31億個參數。該模型與DeBERTa V2一樣使用160GB數據進行訓練。

預期用途與限制

暫無相關詳細信息。

訓練和評估數據

暫無相關詳細信息。

訓練過程

訓練超參數

訓練期間使用了以下超參數：

學習率：3e - 05
訓練批次大小：16
評估批次大小：8
隨機種子：42
優化器：Adam，β值為(0.9, 0.999)，ε值為1e - 08
學習率調度器類型：線性
訓練輪數：5.0
混合精度訓練：原生自動混合精度（Native AMP）

訓練結果

訓練損失	輪數	步數	驗證損失	準確率
0.3676	1.0	24544	0.3761	0.8681
0.2782	2.0	49088	0.3605	0.8881
0.1986	3.0	73632	0.4672	0.8894
0.1299	4.0	98176	0.5248	0.8967
0.0643	5.0	122720	0.6489	0.8999

框架版本

Transformers 4.13.0.dev0
Pytorch 1.10.0 + cu111
Datasets 1.16.1
Tokenizers 0.10.3

📄 許可證

本模型採用MIT許可證。

📋 模型信息表格

屬性	詳情
模型類型	在GLUE MNLI數據集上微調的DeBERTa - v3 - large模型
訓練數據	GLUE MNLI數據集
評估指標	準確率、損失率、精確率、召回率、F1值

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫