🚀 80% 1x4 Block Sparse BERT-Base (uncased) Fine Tuned on SQuADv1.1
このモデルは、質問応答というNLPタスク用に微調整され、SQuAD 1.1データセットで訓練されています。Prune Once For All 80% 1x4ブロックスパース事前学習BERT-Baseモデルを微調整し、知識蒸留を組み合わせた結果です。
我々は、重みの剪定とモデルの蒸留を統合することにより、スパース事前学習Transformer言語モデルを訓練する新しい方法を提案しています。これらのスパース事前学習モデルは、広範なタスクの転移学習に使用でき、スパースパターンを維持します。我々は、訓練した圧縮スパース事前学習モデルが、5つの異なる下流の自然言語タスクに、最小限の精度損失で知識を移転する方法を示しています。
🚀 クイックスタート
このモデルは、質問応答のNLPタスク用に微調整されています。以下に、Pythonでこのモデルをインポートする方法を示します。
💻 使用例
基本的な使用法
import transformers
import model_compression_research as model_comp
model = transformers.AutoModelForQuestionAnswering.from_pretrained('Intel/bert-base-uncased-squadv1.1-sparse-80-1x4-block-pruneofa')
scheduler = mcr.pruning_scheduler_factory(model, '../../examples/transformers/question-answering/config/lock_config.json')
scheduler.remove_pruning()
より多くのコード例については、GitHubリポジトリを参照してください。
📚 ドキュメント
モデルの詳細
Zafrir et al. (2021)によるPrune Once for All方法の可視化です。詳細は彼らの論文を参照してください。

想定される用途
想定される用途 |
説明 |
主な想定用途 |
このモデルは、質問応答のNLPタスクに使用できます。つまり、テキストコーパスが与えられた場合、そのテキストに関する質問をすることができ、モデルはテキスト内から答えを見つけます。 |
主な想定ユーザー |
質問応答を行うすべての人 |
想定外の用途 |
このモデルは、人々に敵対的または疎外感を与える環境を意図的に作り出すために使用してはいけません。 |
メトリクス(モデルのパフォーマンス)
すべての結果は、同じハイパーパラメータと異なるシードを使用した2つの別々の実験の平均です。
訓練と評価データ
項目 |
説明 |
データセット |
SQuAD1.1: "Stanford Question Answering Dataset (SQuAD)は、読解データセットであり、Wikipedia記事のセットに対してクラウドワーカーが作成した質問で構成されています。すべての質問の答えは、対応する読解文からのテキストのセグメント、またはスパンであり、質問が回答不能な場合もあります。" (https://huggingface.co/datasets/squad) |
動機 |
質問応答タスクに対して効率的かつ正確なモデルを構築するため。 |
前処理 |
"我々は、事前学習タスクでモデルを訓練するために、英語のWikipediaデータセット(2500M語)を使用しています。データを訓練セット(95%)と検証セット(5%)に分割します。両方のセットは、モデルの元の論文(Devlin et al., 2019、Sanh et al., 2019)に記載されているように前処理されます。我々は、データを処理して、モデルが許容する最大シーケンス長を使用しますが、0:1の確率で短いシーケンスを許容します。" Wikipediaでの事前学習の後、SQuAD1.1データセットで微調整が完了します。 |
倫理的な考慮事項
項目 |
説明 |
データ |
訓練データはWikipedia記事から取得されています。 |
人間の生活 |
このモデルは、人間の生活や繁栄に関する重要な決定を下すために使用することを意図していません。これは、ラベル付けされたWikipedia記事の集約セットです。 |
緩和策 |
モデル開発中に追加のリスク緩和策は考慮されていません。 |
リスクと危害 |
多くの研究が、言語モデルのバイアスと公平性の問題を調査しています(例えば、Sheng et al., 2021、および Bender et al., 2021 を参照)。このモデルによって生成される予測には、保護されたクラス、アイデンティティの特性、および敏感な社会的および職業的グループにまたがる、不快で有害なステレオタイプが含まれる可能性があります。これ以外にも、このモデルを使用することによるリスクの程度は不明です。 |
使用事例 |
- |
注意事項と推奨事項
ユーザー(直接ユーザーと下流ユーザーの両方)は、このモデルのリスク、バイアス、および制限について認識すべきです。このモデルには追加の注意事項や推奨事項はありません。
📄 ライセンス
このモデルはApache 2.0ライセンスの下で提供されています。
BibTeXエントリと引用情報
@article{zafrir2021prune,
title={Prune Once for All: Sparse Pre-Trained Language Models},
author={Zafrir, Ofir and Larey, Ariel and Boudoukh, Guy and Shen, Haihao and Wasserblat, Moshe},
journal={arXiv preprint arXiv:2111.05754},
year={2021}
}