D

Deberta V3 Large

由microsoft開發
DeBERTaV3通過ELECTRA風格預訓練與梯度解耦嵌入共享技術改進DeBERTa,在自然語言理解任務上表現優異
下載量 343.39k
發布時間 : 3/2/2022

模型概述

DeBERTaV3是基於DeBERTa架構改進的大型語言模型,採用解耦注意力機制和增強型掩碼解碼器,通過ELECTRA風格預訓練框架提升效率,適用於各類自然語言理解任務

模型特點

ELECTRA風格預訓練
採用更高效的ELECTRA預訓練框架替代傳統MLM,提升訓練效率
梯度解耦嵌入共享
創新性地解耦嵌入層梯度共享機制,優化模型參數學習
解耦注意力機制
將注意力機制分解為內容和位置兩個獨立矩陣,增強模型理解能力
增強型掩碼解碼器
改進的掩碼語言模型解碼器,更好地捕捉上下文依賴關係

模型能力

文本分類
問答系統
自然語言推理
語義理解

使用案例

自然語言處理
問答系統
用於構建高精度問答系統,如SQuAD 2.0任務
F1得分91.5,EM得分89.0
文本分類
應用於自然語言推理任務如MNLI
準確率91.8/91.9(匹配/不匹配)
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase