D

Deberta V3 Xsmall

由microsoft開發
DeBERTaV3是微軟提出的改進版DeBERTa模型,通過ELECTRA風格的梯度解耦嵌入共享預訓練方法提升效率,在自然語言理解任務中表現優異。
下載量 87.40k
發布時間 : 3/2/2022

模型概述

DeBERTaV3採用解耦注意力機制和增強型掩碼解碼器,結合ELECTRA風格的預訓練方法,顯著提升了模型在下游任務中的性能表現。

模型特點

梯度解耦嵌入共享
採用ELECTRA風格的預訓練方法,通過梯度解耦技術優化嵌入共享機制
解耦注意力機制
改進的注意力機制能夠分別處理內容和位置信息,提升模型理解能力
高效參數設計
xsmall版本僅2200萬主幹參數,在保持性能的同時大幅減小模型規模

模型能力

文本分類
問答系統
自然語言推理

使用案例

自然語言處理
問答系統
用於構建高性能問答系統
在SQuAD 2.0上F1得分84.8,EM得分82.0
文本分類
用於自然語言推理任務
在MNLI任務上準確率達88.1/88.3(m/mm)
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase