D

Deberta Large

由microsoft開發
DeBERTa是一種改進的BERT模型,通過解耦注意力機制和增強型掩碼解碼器提升性能,在多項自然語言理解任務上超越BERT和RoBERTa。
下載量 15.07k
發布時間 : 3/2/2022

模型概述

DeBERTa(Decoding-enhanced BERT with disentangled attention)通過解耦注意力機制和增強的掩碼解碼器改進了BERT架構,特別在自然語言理解任務中表現出色。

模型特點

解耦注意力機制
將注意力機制中的內容和位置信息解耦處理,提升模型對語義和位置關係的理解能力
增強掩碼解碼器
改進的掩碼語言建模目標函數,更好地捕捉被掩碼token的上下文依賴關係
大規模預訓練
使用80GB訓練數據進行預訓練,學習更豐富的語言表示

模型能力

文本分類
問答系統
自然語言推理
語義相似度計算
語言可接受性判斷

使用案例

學術研究
GLUE基準測試
在通用語言理解評估基準上實現最先進性能
在MNLI、SST-2、QNLI等任務上超越BERT和RoBERTa
工業應用
智能客服
用於問答系統和意圖識別
在SQuAD 2.0問答任務上達到92.2 F1分數
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase