🚀 90% 稀疏 DistilBERT-Base(無大小寫區分)一次性剪枝模型
本模型是一個稀疏預訓練模型,可針對廣泛的語言任務進行微調。權重剪枝過程是將神經網絡的部分權重強制設為零。將部分權重設為零會使矩陣變得更稀疏。更新神經網絡權重涉及矩陣乘法,如果我們能在保留足夠重要信息的同時保持矩陣稀疏,就可以降低整體計算開銷。模型名稱中的“稀疏”一詞表示權重的稀疏比例;更多詳細信息,可閱讀 Zafrir 等人 (2021)。
來自 Zafrir 等人 (2021) 的一次性剪枝方法可視化:

✨ 主要特性
該模型作為通用稀疏語言模型,雖當前狀態不適用於下游預測任務,但可針對多種語言任務進行微調,包括但不限於問答、自然語言推理和情感分類等。
📦 模型詳情
📚 預期用途
預期用途 |
描述 |
主要預期用途 |
這是一個通用稀疏語言模型;就目前形式而言,它還不能用於下游預測任務,但可以針對多個語言任務進行微調,包括(但不限於)問答、自然語言推理和情感分類。 |
主要預期用戶 |
任何需要高效通用語言模型用於其他下游任務的人。 |
超出範圍的用途 |
該模型不應被用於故意為人們創造敵對或排斥性的環境。 |
💻 使用示例
基礎用法
以下是在 Python 中導入此模型的示例:
import transformers
model = transformers.AutoModelForQuestionAnswering.from_pretrained('Intel/distilbert-base-uncased-sparse-90-unstructured-pruneofa')
更多代碼示例,請參考 GitHub 倉庫。
🔧 模型性能指標
所有結果均為兩次使用相同超參數和不同種子的獨立實驗的平均值。
🔧 訓練和評估數據
訓練和評估數據 |
描述 |
數據集 |
英文維基百科數據集(2500M 個單詞)。 |
動機 |
為多個下游語言任務構建一個高效且準確的基礎模型。 |
預處理 |
“我們使用英文維基百科數據集(2500M 個單詞)在預訓練任務上訓練模型。我們將數據分為訓練集(95%)和驗證集(5%)。兩個集合都按照模型原始論文中的描述進行預處理 (Devlin 等人, 2019, Sanh 等人, 2019)。我們處理數據以使用模型允許的最大序列長度,不過,我們允許以 0.1 的概率使用較短的序列。” |
🔧 倫理考量
倫理考量 |
描述 |
數據 |
訓練數據來自維基百科文章。 |
人類生活 |
該模型並非旨在為對人類生活或繁榮至關重要的決策提供信息。它是一組聚合的帶標籤的維基百科文章。 |
緩解措施 |
在模型開發過程中未考慮額外的風險緩解策略。 |
風險和危害 |
大量研究探討了語言模型的偏差和公平性問題(例如,見 Sheng 等人, 2021 和 Bender 等人, 2021)。該模型生成的預測可能包括針對受保護類別、身份特徵以及敏感、社會和職業群體的令人不安和有害的刻板印象。除此之外,使用該模型所涉及的風險程度仍未知。 |
使用案例 |
- |
🔧 注意事項和建議
⚠️ 重要提示
用戶(直接用戶和下游用戶)應瞭解該模型的風險、偏差和侷限性。此模型沒有額外的注意事項或建議。
📄 許可證
本模型使用 Apache 2.0 許可證。
📖 BibTeX 引用和引用信息
@article{zafrir2021prune,
title={Prune Once for All: Sparse Pre-Trained Language Models},
author={Zafrir, Ofir and Larey, Ariel and Boudoukh, Guy and Shen, Haihao and Wasserblat, Moshe},
journal={arXiv preprint arXiv:2111.05754},
year={2021}
}