xtremedistil-l6-h256-uncasedオープンソースモデル - 多タスク・多言語に対応、無料で多様なニーズを解決

ホーム

Xtremedistil L6 H256 Uncased

microsoftによって開発

XtremeDistilTransformersは蒸留されたタスク非依存型Transformerモデルで、タスク転移学習技術を用いて訓練された小型汎用モデルであり、様々なタスクと言語に適用可能です。

大規模言語モデル

Transformers

英語オープンソースライセンス:MIT #マルチタスク蒸留 #多言語サポート #効率的な推論

ダウンロード数 3,816

リリース時間 : 3/2/2022

モデル概要

このモデルはマルチタスク蒸留技術を組み合わせ、6層ネットワーク構造と384次元の隠れ層を持ち、パラメータ数2200万で、BERT-baseと比較して5.3倍の高速化を実現しています。

モデル特徴

タスク非依存蒸留

タスク転移学習技術で訓練され、任意のタスクと言語に適用可能です。

効率的な圧縮

BERT-baseモデルと比較して5.3倍の高速化を実現し、パラメータ数は80%削減されています。

マルチタスク蒸留技術

XtremeDistilとMiniLMの2つの論文で提案された先進的な蒸留手法を組み合わせています。

高性能

GLUEやSQuAD-v2などのベンチマークテストで優れた性能を発揮し、元の大規模モデルに近い性能を示します。

モデル能力

テキスト分類

質問応答システム

自然言語理解

意味的類似度計算

使用事例

自然言語処理

テキスト分類

感情分析、トピック分類などのタスクに使用可能

SST-2感情分析タスクで92.3%の精度を達成

質問応答システム

オープンドメイン質問応答タスクに適しています

SQuAD-v2質問応答タスクで76.6 F1スコアを達成

意味的類似度

2つのテキストの意味的類似度を判断するのに使用可能

QQP意味的類似度タスクで91.0%の精度を達成

🚀 XtremeDistilTransformers：大規模ニューラルネットワークの蒸留に特化したモデル

XtremeDistilTransformersは、蒸留されたタスク非依存型のTransformerモデルです。タスク移行を利用して小型の汎用モデルを学習し、任意のタスクや言語に適用できます。詳細は論文 XtremeDistilTransformers: Task Transfer for Task-agnostic Distillation で説明されています。

我々は、論文 XtremeDistil: Multi-stage Distillation for Massive Multilingual Models と MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers の多タスク蒸留技術を組み合わせてタスク移行を行い、対応する Githubコードを提供しています。

この 6 層、384 の隠れ層サイズ、12 個の注意力ヘッドを持つ l6 - h384 チェックポイントは、2200万 個のパラメータを持ち、BERT - base と比較して 5.3倍 の速度向上を実現しています。

他の利用可能なチェックポイント: xtremedistil - l6 - h384 - uncased と xtremedistil - l12 - h384 - uncased

以下の表は、GLUE開発セットとSQuAD - v2での結果を示しています。

モデル	パラメータ数	加速比	MNLI	QNLI	QQP	RTE	SST	MRPC	SQUAD2	平均
BERT	1.09億	1倍	84.5	91.7	91.3	68.6	93.2	87.3	76.8	84.8
DistilBERT	6600万	2倍	82.2	89.2	88.5	59.9	91.3	87.5	70.7	81.3
TinyBERT	6600万	2倍	83.5	90.5	90.6	72.2	91.6	88.4	73.1	84.3
MiniLM	6600万	2倍	84.0	91.0	91.0	71.5	92.0	88.4	76.4	84.9
MiniLM	2200万	5.3倍	82.8	90.3	90.6	68.9	91.3	86.6	72.9	83.3
XtremeDistil - l6 - h256	1300万	8.7倍	83.9	89.5	90.6	80.1	91.2	90.0	74.1	85.6
XtremeDistil - l6 - h384	2200万	5.3倍	85.4	90.3	91.0	80.9	92.3	90.0	76.6	86.6
XtremeDistil - l12 - h384	3300万	2.7倍	87.2	91.9	91.3	85.6	93.1	90.4	80.2	88.5

テスト環境は tensorflow 2.3.1, transformers 4.1.1, torch 1.6.0 です。

もしあなたがこのチェックポイントを研究で使用した場合は、以下を引用してください。

@misc{mukherjee2021xtremedistiltransformers,
      title={XtremeDistilTransformers: Task Transfer for Task-agnostic Distillation}, 
      author={Subhabrata Mukherjee and Ahmed Hassan Awadallah and Jianfeng Gao},
      year={2021},
      eprint={2106.04563},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}