xtremedistil-l6-h256-uncased開源模型 - 支持多任務多語言，免費解決多樣需求

首頁

Xtremedistil L6 H256 Uncased

由microsoft開發

XtremeDistilTransformers是一個經過蒸餾的任務無關型Transformer模型，利用任務遷移學習技術訓練小型通用模型，適用於多種任務和語言。

大型語言模型

Transformers

英語開源協議:MIT #多任務蒸餾 #多語言支持 #高效推理

下載量 3,816

發布時間 : 3/2/2022

模型概述

該模型結合了多任務蒸餾技術，具有6層網絡結構和384維隱藏層，參數量2200萬，相比BERT-base實現了5.3倍加速。

模型特點

任務無關蒸餾

通過任務遷移學習技術訓練，可應用於任意任務和語言。

高效壓縮

相比BERT-base模型實現了5.3倍加速，參數量減少80%。

多任務蒸餾技術

結合XtremeDistil和MiniLM兩篇論文中的先進蒸餾方法。

高性能

在GLUE和SQuAD-v2等基準測試中表現優異，接近原始大模型性能。

模型能力

文本分類

問答系統

自然語言理解

語義相似度計算

使用案例

自然語言處理

文本分類

可用於情感分析、主題分類等任務

在SST-2情感分析任務上達到92.3%準確率

問答系統

適用於開放域問答任務

在SQuAD-v2問答任務上達到76.6 F1分數

語義相似度

可用於判斷兩段文本的語義相似度

在QQP語義相似度任務上達到91.0%準確率

🚀 XtremeDistilTransformers：用於蒸餾大規模神經網絡

XtremeDistilTransformers 是一個經過蒸餾的與任務無關的Transformer模型，它利用任務遷移來學習一個小型通用模型，該模型可以應用於任意任務和語言，相關內容在論文 XtremeDistilTransformers: Task Transfer for Task-agnostic Distillation 中有所闡述。

我們結合了來自論文 XtremeDistil: Multi-stage Distillation for Massive Multilingual Models 和 MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers 的多任務蒸餾技術進行任務遷移，並提供了對應的 Github代碼。

這個具有 6 層、384 隱藏層大小、12 個注意力頭的 l6 - h384 檢查點對應著 2200 萬 個參數，與 BERT - base 相比速度提升了 5.3 倍。

其他可用的檢查點：xtremedistil - l6 - h384 - uncased 和 xtremedistil - l12 - h384 - uncased

以下表格展示了在 GLUE 開發集和 SQuAD - v2 上的結果。

模型	參數數量	加速比	MNLI	QNLI	QQP	RTE	SST	MRPC	SQUAD2	平均
BERT	1.09億	1倍	84.5	91.7	91.3	68.6	93.2	87.3	76.8	84.8
DistilBERT	6600萬	2倍	82.2	89.2	88.5	59.9	91.3	87.5	70.7	81.3
TinyBERT	6600萬	2倍	83.5	90.5	90.6	72.2	91.6	88.4	73.1	84.3
MiniLM	6600萬	2倍	84.0	91.0	91.0	71.5	92.0	88.4	76.4	84.9
MiniLM	2200萬	5.3倍	82.8	90.3	90.6	68.9	91.3	86.6	72.9	83.3
XtremeDistil - l6 - h256	1300萬	8.7倍	83.9	89.5	90.6	80.1	91.2	90.0	74.1	85.6
XtremeDistil - l6 - h384	2200萬	5.3倍	85.4	90.3	91.0	80.9	92.3	90.0	76.6	86.6
XtremeDistil - l12 - h384	3300萬	2.7倍	87.2	91.9	91.3	85.6	93.1	90.4	80.2	88.5

測試環境為 tensorflow 2.3.1, transformers 4.1.1, torch 1.6.0

如果您在工作中使用了這個檢查點，請引用：

@misc{mukherjee2021xtremedistiltransformers,
      title={XtremeDistilTransformers: Task Transfer for Task-agnostic Distillation}, 
      author={Subhabrata Mukherjee and Ahmed Hassan Awadallah and Jianfeng Gao},
      year={2021},
      eprint={2106.04563},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}