🚀 90% Sparse DistilBERT-Base (uncased) Prune Once for All
このモデルは、幅広い言語タスクに対して微調整可能な疎な事前学習モデルです。重みの剪定とは、ニューラルネットワークの一部の重みをゼロにすることです。一部の重みをゼロに設定すると、行列が疎になります。ニューラルネットワークの重みの更新には行列の乗算が含まれますが、十分な重要な情報を保持しながら行列を疎に保つことができれば、全体の計算オーバーヘッドを削減することができます。モデルのタイトルにある「sparse」という用語は、重みの疎度の比率を示しています。詳細については、Zafrir et al. (2021) を読むことができます。
Zafrir et al. (2021) からの Prunce Once for All 手法の可視化:

想定される使用方法 |
説明 |
主な想定使用用途 |
これは一般的な疎な言語モデルです。現在の状態では、下流の予測タスクには適していませんが、質問応答、ジャンル自然言語推論、感情分類など(これらに限定されません)のいくつかの言語タスクに対して微調整することができます。 |
主な想定ユーザー |
他の下流タスクに効率的な一般的な言語モデルが必要な人。 |
想定外の使用方法 |
このモデルは、人々に敵対的または疎外感を与える環境を意図的に作り出すために使用してはなりません。 |
💻 使用例
基本的な使用法
import transformers
model = transformers.AutoModelForQuestionAnswering.from_pretrained('Intel/distilbert-base-uncased-sparse-90-unstructured-pruneofa')
より多くのコード例については、GitHub Repo を参照してください。
📊 メトリクス (モデルのパフォーマンス):
すべての結果は、同じハイパーパラメータと異なるシードを使用した2つの別々の実験の平均です。
学習と評価データ |
説明 |
データセット |
English Wikipedia Dataset (2500M単語)。 |
動機 |
いくつかの下流の言語タスクに対して効率的で正確なベースモデルを構築すること。 |
前処理 |
"事前学習タスクでモデルを学習するために、英語のウィキペディアデータセット (2500M単語) を使用します。データを学習セット (95%) と検証セット (5%) に分割します。両方のセットは、モデルの元の論文 (Devlin et al., 2019, Sanh et al., 2019) で説明されているように前処理されます。データを処理して、モデルが許容する最大シーケンス長を使用しますが、確率0:1でより短いシーケンスを許容します。" |
倫理的な考慮事項 |
説明 |
データ |
学習データはウィキペディアの記事から取得されています。 |
人間の生活 |
このモデルは、人間の生活や繁栄にとって中心的な決定を下すための情報を提供することを意図していません。これは、ラベル付けされたウィキペディア記事の集まりです。 |
緩和策 |
モデル開発中に追加のリスク緩和戦略は考慮されていません。 |
リスクと害 |
多くの研究が、言語モデルのバイアスと公平性の問題を探求しています(例えば、Sheng et al., 2021 および Bender et al., 2021 を参照)。このモデルによって生成される予測には、保護されたクラス、アイデンティティの特性、および敏感な社会的および職業的グループにまたがる不快で有害なステレオタイプが含まれる可能性があります。これ以外にも、このモデルを使用することに伴うリスクの程度は不明です。 |
使用事例 |
- |
注意事項と推奨事項 |
ユーザー(直接および下流の両方)は、このモデルのリスク、バイアス、および制限について認識されるべきです。このモデルには追加の注意事項または推奨事項はありません。 |
📄 ライセンス
このモデルは Apache 2.0 ライセンスの下で提供されています。
📖 BibTeXエントリと引用情報
@article{zafrir2021prune,
title={Prune Once for All: Sparse Pre-Trained Language Models},
author={Zafrir, Ofir and Larey, Ariel and Boudoukh, Guy and Shen, Haihao and Wasserblat, Moshe},
journal={arXiv preprint arXiv:2111.05754},
year={2021}
}