QuaLA - MiniLMオープンソースミニマル言語モデル、SQuAD1.1データセットで8.8倍の高速化と低精度損失

Home

Dynamic Minilmv2 L6 H384 Squad1.1 Int8 Static

Developed by Intel

QuaLA-MiniLMはインテルが開発した小型言語モデルで、知識蒸留、長さ適応トランスフォーマー、8ビット量子化技術を統合し、SQuAD1.1データセットで最大8.8倍の高速化を実現しつつ精度損失は1%未満です。

大規模言語モデル

Transformers

Open Source License:MIT #長さ適応推論 #8ビット量子化モデル #知識蒸留最適化

Downloads 172

Release Time : 11/21/2022

Model Overview

このモデルは動的な計算リソース割り当てにより効率的な推論を実現し、精度と効率のバランスが求められる自然言語処理タスクに適しています。

Model Features

動的計算割り当て

LAT技術により各層のトークン数を動的に調整し、異なる計算予算に対応

効率的量子化

8ビット量子化技術を採用しモデルサイズを削減、量子化後サイズは元モデルの30%のみ

知識蒸留

RoBERTa-Large教師モデルから知識を蒸留し、小型モデルでも高精度を維持

Model Capabilities

テキスト理解

質問応答システム

効率的推論

Use Cases

インテリジェントQA

WikipediaコンテンツQA

SQuAD1.1データセットに基づく質問応答アプリケーション

87.68% F1精度を維持しつつ8.8倍の高速化を実現

エッジコンピューティング

モバイル端末向けQAシステム

リソース制約のあるデバイスに効率的な言語モデルを展開

量子化後モデルサイズはわずか84.86MB

🚀 QuaLA-MiniLM - モデル詳細

このモデルは、知識蒸留、長さ適応型トランスフォーマー（LAT）技術、および低ビット量子化を組み合わせたQuaLA-MiniLMという新しいアプローチの成果です。我々はDynamic-TinyBERTアプローチを拡張しています。このアプローチでは、与えられた計算予算で任意の推論シナリオに適応できる単一のモデルを訓練し、SQuAD1.1データセットで優れた精度と効率のトレードオフを達成します。著者らは、このアプローチを他の効率的な方法と比較し、精度損失が1%未満で最大x8.8倍の高速化を達成することを見出しまし。また、彼らはコードをGitHubで公開しています。この記事では、動的トランスフォーマーや他の知識蒸留アプローチなど、この分野の他の関連研究も議論されています。

✨ 主な機能

知識蒸留、LAT技術、低ビット量子化を組み合わせた新アプローチ。
与えられた計算予算で任意の推論シナリオに適応できる単一モデル。
SQuAD1.1データセットで精度損失が1%未満で最大x8.8倍の高速化。

📦 インストール

原文書にインストール手順に関する具体的な内容がありませんでしたので、このセクションをスキップします。

💻 使用例

基本的な使用法

import ...

コード例の詳細は近日公開予定です。

📚 ドキュメント

QuaLA-MiniLM訓練プロセス

特定の計算予算で最適な精度と効率のトレードオフを持つモデルを実行するには、進化的探索によって見つかった最適な設定に長さ構成を設定し、計算制約に合わせます。

モデル詳細

属性	詳情
言語	en
モデル作成者の所属企業	Intel
日付	2023年5月4日
バージョン	1
タイプ	NLP - 小型言語モデル
アーキテクチャ	"この研究では、Dynamic-TinyBERTを拡張して、はるかに高効率なモデルを生成します。まず、BERT-baseではなくRoBERTa-Large教師モデルから蒸留された、はるかに小さいMiniLMモデルを使用します。次に、LAT方法を適用してモデルの長さを適応させ、最後に8ビット量子化を適用してモデルの効率をさらに向上させます。結果として得られるQuaLAMiniLM（量子化長さ適応型MiniLM）モデルは、パラメータのわずか30%でBERT-baseを上回り、難しいSQuAD1.1ベンチマークで他のどの効率的なアプローチよりも優れた精度と速度のトレードオフを示します（精度損失<1%で最大x8.8倍の高速化）。LATによって提示された概念に従い、精度と効率の曲線上の各ポイントに対して再訓練する必要を軽減しながら、幅広い精度と効率のトレードオフポイントを提供します。"
論文またはその他のリソース	https://arxiv.org/pdf/2210.17114.pdf
ライセンス	TBD
質問またはコメント	Intel DevHub Discord

メトリクス（モデル性能）

SQuAD1.1評価データセットでの推論性能。すべての長さ適応型（LA）モデルについて、トークン削除なしでモデルを実行した場合と、精度制約を満たすために見つかった最適な長さ構成に従ってトークン削除構成でモデルを実行した場合の両方の性能を示します。

モデル	モデルサイズ (Mb)	レイヤーごとのトークン数	精度 (F1)	レイテンシ (ms)	FLOPs	高速化率
BERT-base	415.4723	(384,384,384,384,384,384)	88.5831	56.5679	3.53E+10	1x
TinyBERT-ours	253.2077	(384,384,384,384,384,384)	88.3959	32.4038	1.77E+10	1.74x
QuaTinyBERT-ours	132.0665	(384,384,384,384,384,384)	87.6755	15.5850	1.77E+10	3.63x
MiniLMv2-ours	115.0473	(384,384,384,384,384,384)	88.7016	18.2312	4.76E+09	3.10x
QuaMiniLMv2-ours	84.8602	(384,384,384,384,384,384)	88.5463	9.1466	4.76E+09	6.18x
LA-MiniLM	115.0473	(384,384,384,384,384,384)	89.2811	16.9900	4.76E+09	3.33x
LA-MiniLM	115.0473	(269, 253, 252, 202, 104, 34)	87.7637	11.4428	2.49E+09	4.94x
QuaLA-MiniLM	84.8596	(384,384,384,384,384,384)	88.8593	7.4443	4.76E+09	7.6x
QuaLA-MiniLM	84.8596	(315,251,242,159,142,33)	87.6828	6.4146	2.547E+09	8.8x

訓練と評価データ

訓練と評価データ	説明
データセット	SQuAD1.1データセット
動機	いくつかの下流の言語タスクのための効率的で正確なベースモデルを構築すること。

倫理的考慮事項

倫理的考慮事項	説明
データ	SQuAD1.1データセット
人間の生活	このモデルは、人間の生活や繁栄に関する重要な決定に情報を提供することを目的としていません。これは、ラベル付けされたWikipedia記事の集約セットです。
緩和策	モデル開発中に追加のリスク緩和策は考慮されませんでした。
リスクと危害	多くの研究が言語モデルのバイアスと公平性の問題を調査しています（例えば、Sheng et al., 2021、およびBender et al., 2021を参照）。このモデルによって生成された予測には、保護されたクラス、アイデンティティ特性、および敏感な社会的および職業的グループにまたがる不快で有害なステレオタイプが含まれる可能性があります。これ以外にも、このモデルを使用することによるリスクの程度は不明のままです。

注意事項と推奨事項

ユーザー（直接のユーザーと下流のユーザーの両方）は、このモデルのリスク、バイアス、および制限について認識すべきです。このモデルに関する追加の注意事項や推奨事項はありません。

BibTeXエントリと引用情報

コメント	説明
コメント	このバージョンでは、概要にソースコードへの参照を追加しました。arXiv管理者注：arXiv:2111.09645とのテキストの重複があります。
主題	計算と言語 (cs.CL)
引用形式	arXiv:2210.17114 [cs.CL]
-	（このバージョンの場合はarXiv:2210.17114v2 [cs.CL]）https://doi.org/10.48550/arXiv.2210.17114