X

Xtremedistil L6 H256 Uncased

由microsoft開發
XtremeDistilTransformers是一個經過蒸餾的任務無關型Transformer模型,利用任務遷移學習技術訓練小型通用模型,適用於多種任務和語言。
下載量 3,816
發布時間 : 3/2/2022

模型概述

該模型結合了多任務蒸餾技術,具有6層網絡結構和384維隱藏層,參數量2200萬,相比BERT-base實現了5.3倍加速。

模型特點

任務無關蒸餾
通過任務遷移學習技術訓練,可應用於任意任務和語言。
高效壓縮
相比BERT-base模型實現了5.3倍加速,參數量減少80%。
多任務蒸餾技術
結合XtremeDistil和MiniLM兩篇論文中的先進蒸餾方法。
高性能
在GLUE和SQuAD-v2等基準測試中表現優異,接近原始大模型性能。

模型能力

文本分類
問答系統
自然語言理解
語義相似度計算

使用案例

自然語言處理
文本分類
可用於情感分析、主題分類等任務
在SST-2情感分析任務上達到92.3%準確率
問答系統
適用於開放域問答任務
在SQuAD-v2問答任務上達到76.6 F1分數
語義相似度
可用於判斷兩段文本的語義相似度
在QQP語義相似度任務上達到91.0%準確率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase