🚀 80% 1x4 塊稀疏 BERT-Base(無大小寫)在 SQuADv1.1 上微調的模型
該模型針對問答這一自然語言處理任務進行了微調,在 SQuAD 1.1 數據集上進行訓練。它是對 Prune Once For All 80% 1x4 塊稀疏預訓練 BERT-Base 模型進行微調,並結合知識蒸餾的成果。
我們提出了一種通過整合權重剪枝和模型蒸餾來訓練稀疏預訓練 Transformer 語言模型的新方法。這些稀疏預訓練模型可用於廣泛任務的遷移學習,同時保持其稀疏模式。我們展示了我們訓練的壓縮稀疏預訓練模型如何以最小的精度損失將其知識遷移到五個不同的下游自然語言任務中。
✨ 主要特性
- 針對問答任務進行微調,適用於自然語言處理領域。
- 結合了權重剪枝和知識蒸餾技術,訓練出稀疏預訓練模型。
- 能夠在保持稀疏模式的同時進行遷移學習,應用於多種下游任務。
📦 安裝指南
暫未提供具體安裝步驟,可參考代碼示例中的導入方式。
💻 使用示例
基礎用法
import transformers
import model_compression_research as model_comp
model = transformers.AutoModelForQuestionAnswering.from_pretrained('Intel/bert-base-uncased-squadv1.1-sparse-80-1x4-block-pruneofa')
scheduler = mcr.pruning_scheduler_factory(model, '../../examples/transformers/question-answering/config/lock_config.json')
scheduler.remove_pruning()
如需更多代碼示例,請參考 GitHub 倉庫。
📚 詳細文檔
模型詳情
Prunce Once for All 方法的可視化,來自 Zafrir et al. (2021)。更多詳情可在他們的論文中找到。

預期用途
預期用途 |
描述 |
主要預期用途 |
您可以將該模型用於自然語言處理的問答任務:給定一段文本語料庫,您可以向其提出關於該文本的問題,它將在文本中找到答案。 |
主要預期用戶 |
任何進行問答任務的人 |
超出範圍的用途 |
該模型不應用於故意為人們創造敵對或疏遠的環境。 |
指標(模型性能)
所有結果均為兩次使用相同超參數和不同種子的獨立實驗的平均值。
訓練和評估數據
訓練和評估數據 |
描述 |
數據集 |
SQuAD1.1:“斯坦福問答數據集 (SQuAD) 是一個閱讀理解數據集,由眾包工作者在一組維基百科文章上提出的問題組成,其中每個問題的答案都是對應閱讀段落中的一段文本,或者問題可能無法回答。” (https://huggingface.co/datasets/squad) |
動機 |
為問答任務構建一個高效且準確的模型。 |
預處理 |
“我們使用英文維基百科數據集(25 億個單詞)在預訓練任務上訓練模型。我們將數據分為訓練集(95%)和驗證集(5%)。兩個集合都按照模型原始論文中的描述進行預處理 (Devlin et al., 2019, Sanh et al., 2019)。我們處理數據以使用模型允許的最大序列長度,然而,我們允許以 0:1 的概率使用較短的序列。” 在維基百科上進行預訓練後,在 SQuAD1.1 數據集上完成微調。 |
倫理考量
倫理考量 |
描述 |
數據 |
訓練數據來自維基百科文章 |
人類生活 |
該模型並非用於為對人類生活或繁榮至關重要的決策提供信息。它是一組聚合的帶標籤的維基百科文章。 |
緩解措施 |
在模型開發過程中未考慮額外的風險緩解策略。 |
風險和危害 |
大量研究已經探討了語言模型的偏差和公平性問題(例如,參見 Sheng et al., 2021 和 Bender et al., 2021)。該模型生成的預測可能包括受保護類別、身份特徵以及敏感、社會和職業群體的令人不安和有害的刻板印象。除此之外,使用該模型所涉及的風險程度仍然未知。 |
使用案例 |
- |
注意事項和建議
用戶(直接用戶和下游用戶)應瞭解該模型的風險、偏差和侷限性。該模型沒有額外的注意事項或建議。
📄 許可證
本模型使用 Apache 2.0 許可證。
🔧 技術細節
該模型是對 Prune Once For All 80% 1x4 塊稀疏預訓練 BERT-Base 模型進行微調,並結合知識蒸餾的成果。訓練過程中使用了英文維基百科數據集進行預訓練,在 SQuAD1.1 數據集上進行微調。具體技術細節可參考 論文: Zafrir et al. (2021)。
📚 引用信息
@article{zafrir2021prune,
title={Prune Once for All: Sparse Pre-Trained Language Models},
author={Zafrir, Ofir and Larey, Ariel and Boudoukh, Guy and Shen, Haihao and Wasserblat, Moshe},
journal={arXiv preprint arXiv:2111.05754},
year={2021}
}