bert-large-uncased-wwm-squadv2-x2.15-f83.2-d25-hybrid-v1オープンソースモデル - トリミング後2.15倍の速度向上、高効率で実用的

ホーム

Bert Large Uncased Wwm Squadv2 X2.15 F83.2 D25 Hybrid V1

madlagによって開発

このモデルはnn_pruningライブラリで剪定され、元の重みの32%が残され、実行速度はオリジナル版の2.15倍で、F1値は83.22です。

質問応答システム

Transformers

英語オープンソースライセンス:MIT #質問応答システム #重みの剪定 #効率的な推論

ダウンロード数 21

リリース時間 : 3/2/2022

モデル概要

BERT-largeアーキテクチャに基づく質問応答システムモデルで、SQuAD 2.0データセットに対して微調整され、全単語マスキング技術を採用し、英語の質問応答タスクに適しています。

モデル特徴

効率的な剪定技術

nn_pruningライブラリを通じて構造化剪定を実現し、線形層は25%の重みを残し、全体で32%の重みを残します。

推論の高速化

実行速度は元のBERT-largeの2.15倍に達します。

アテンションヘッドの最適化

384個のアテンションヘッドのうち155個（40.4%）を剪定し、計算効率を向上させます。

モデル能力

英語の質問応答

読解

テキスト理解

使用事例

教育

学習支援システム

学生が教材から迅速に問題の答えを取得するのを支援します。

F1値83.22の正解率

スマートカスタマーサービス

FAQ自動回答

知識ベースから自動的に問題の答えを検索します。

🚀 bert-large-uncased-whole-word-maskingモデルをSQuAD v2でファインチューニング

このモデルは、nn_pruning Pythonライブラリを使用して作成されました。線形層は元の重みの25.0% を含んでいます。

モデル全体では、元の重みの 32.0% を保持しています（埋め込み層はモデルの重要な部分を占めており、この方法では剪定されません）。

線形行列を単純にリサイズすることで、評価時に bert-large-uncased-whole-word-masking の 2.15倍の速度 で実行されます。これは、剪定方法によって構造化された行列が生成されるため可能です。各行列の非ゼロ/ゼロ部分を確認するには、下のプロット上にマウスをホバーさせてください。

精度に関しては、F1値が83.22 で、bert-large-uncased-whole-word-maskingの85.85と比較すると、F1値が2.63低下 しています。

✨ 主な機能

微細剪定の詳細

このモデルは、HuggingFaceのモデルチェックポイントを SQuAD2.0でファインチューニングし、madlag/bert-large-uncased-whole-word-masking-finetuned-squadv2モデルから知識蒸留したものです。

このモデルは大文字小文字を区別しません。つまり、「english」と「English」は同じとみなされます。

ブロック剪定の副作用として、一部のアテンションヘッドが完全に削除されます。合計384個のヘッドのうち、155個（40.4%）が削除されています。

以下は、剪定後のネットワーク内での残りのヘッドの分布の詳細です。

SQuAD1.1データセットの詳細

データセット	分割	サンプル数
SQuAD 2.0	学習	130.0K
SQuAD 2.0	評価	11.9k

ファインチューニング

Python: 3.8.5
マシンスペック:

CPU: Intel(R) Core(TM) i7-6700K CPU
メモリ: 64 GiB
GPU: 1 GeForce GTX 3090（24GiBメモリ）
GPUドライバー: 455.23.05、CUDA: 11.1

結果

Pytorchモデルファイルサイズ: 1119MB（元のBERT: 1228.0MB）

指標	値	元の値（表2）	変化
EM	80.19	82.83	-3.64
F1	83.22	85.85	-2.63

{
    "HasAns_exact": 76.48448043184885,
    "HasAns_f1": 82.55514100819374,
    "HasAns_total": 5928,
    "NoAns_exact": 83.8856181665265,
    "NoAns_f1": 83.8856181665265,
    "NoAns_total": 5945,
    "best_exact": 80.19034784805862,
    "best_exact_thresh": 0.0,
    "best_f1": 83.22133208932635,
    "best_f1_thresh": 0.0,
    "exact": 80.19034784805862,
    "f1": 83.22133208932645,
    "total": 11873
}

📦 インストール

nn_pruning をインストールします。これには最適化スクリプトが含まれており、空の行/列を削除することで線形層をより小さなものにパックします。

pip install nn_pruning

💻 使用例

基本的な使用法

from transformers import pipeline
from nn_pruning.inference_model_patcher import optimize_model

qa_pipeline = pipeline(
    "question-answering",
    model="madlag/bert-large-uncased-wwm-squadv2-x2.15-f83.2-d25-hybrid-v1",
    tokenizer="madlag/bert-large-uncased-wwm-squadv2-x2.15-f83.2-d25-hybrid-v1"
)

print("bert-large-uncased-whole-word-masking parameters: 497.0M")
print(f"Parameters count (includes only head pruning, not feed forward pruning)={int(qa_pipeline.model.num_parameters() / 1E6)}M")
qa_pipeline.model = optimize_model(qa_pipeline.model, "dense")

print(f"Parameters count after complete optimization={int(qa_pipeline.model.num_parameters() / 1E6)}M")
predictions = qa_pipeline({
    'context': "Frédéric François Chopin, born Fryderyk Franciszek Chopin (1 March 1810 – 17 October 1849), was a Polish composer and virtuoso pianist of the Romantic era who wrote primarily for solo piano.",
    'question': "Who is Frederic Chopin?",
})
print("Predictions", predictions)