🚀 80% 1x4 块稀疏 BERT-Base(无大小写)在 SQuADv1.1 上微调的模型
该模型针对问答这一自然语言处理任务进行了微调,在 SQuAD 1.1 数据集上进行训练。它是对 Prune Once For All 80% 1x4 块稀疏预训练 BERT-Base 模型进行微调,并结合知识蒸馏的成果。
我们提出了一种通过整合权重剪枝和模型蒸馏来训练稀疏预训练 Transformer 语言模型的新方法。这些稀疏预训练模型可用于广泛任务的迁移学习,同时保持其稀疏模式。我们展示了我们训练的压缩稀疏预训练模型如何以最小的精度损失将其知识迁移到五个不同的下游自然语言任务中。
✨ 主要特性
- 针对问答任务进行微调,适用于自然语言处理领域。
- 结合了权重剪枝和知识蒸馏技术,训练出稀疏预训练模型。
- 能够在保持稀疏模式的同时进行迁移学习,应用于多种下游任务。
📦 安装指南
暂未提供具体安装步骤,可参考代码示例中的导入方式。
💻 使用示例
基础用法
import transformers
import model_compression_research as model_comp
model = transformers.AutoModelForQuestionAnswering.from_pretrained('Intel/bert-base-uncased-squadv1.1-sparse-80-1x4-block-pruneofa')
scheduler = mcr.pruning_scheduler_factory(model, '../../examples/transformers/question-answering/config/lock_config.json')
scheduler.remove_pruning()
如需更多代码示例,请参考 GitHub 仓库。
📚 详细文档
模型详情
Prunce Once for All 方法的可视化,来自 Zafrir et al. (2021)。更多详情可在他们的论文中找到。

预期用途
预期用途 |
描述 |
主要预期用途 |
您可以将该模型用于自然语言处理的问答任务:给定一段文本语料库,您可以向其提出关于该文本的问题,它将在文本中找到答案。 |
主要预期用户 |
任何进行问答任务的人 |
超出范围的用途 |
该模型不应用于故意为人们创造敌对或疏远的环境。 |
指标(模型性能)
所有结果均为两次使用相同超参数和不同种子的独立实验的平均值。
训练和评估数据
训练和评估数据 |
描述 |
数据集 |
SQuAD1.1:“斯坦福问答数据集 (SQuAD) 是一个阅读理解数据集,由众包工作者在一组维基百科文章上提出的问题组成,其中每个问题的答案都是对应阅读段落中的一段文本,或者问题可能无法回答。” (https://huggingface.co/datasets/squad) |
动机 |
为问答任务构建一个高效且准确的模型。 |
预处理 |
“我们使用英文维基百科数据集(25 亿个单词)在预训练任务上训练模型。我们将数据分为训练集(95%)和验证集(5%)。两个集合都按照模型原始论文中的描述进行预处理 (Devlin et al., 2019, Sanh et al., 2019)。我们处理数据以使用模型允许的最大序列长度,然而,我们允许以 0:1 的概率使用较短的序列。” 在维基百科上进行预训练后,在 SQuAD1.1 数据集上完成微调。 |
伦理考量
伦理考量 |
描述 |
数据 |
训练数据来自维基百科文章 |
人类生活 |
该模型并非用于为对人类生活或繁荣至关重要的决策提供信息。它是一组聚合的带标签的维基百科文章。 |
缓解措施 |
在模型开发过程中未考虑额外的风险缓解策略。 |
风险和危害 |
大量研究已经探讨了语言模型的偏差和公平性问题(例如,参见 Sheng et al., 2021 和 Bender et al., 2021)。该模型生成的预测可能包括受保护类别、身份特征以及敏感、社会和职业群体的令人不安和有害的刻板印象。除此之外,使用该模型所涉及的风险程度仍然未知。 |
使用案例 |
- |
注意事项和建议
用户(直接用户和下游用户)应了解该模型的风险、偏差和局限性。该模型没有额外的注意事项或建议。
📄 许可证
本模型使用 Apache 2.0 许可证。
🔧 技术细节
该模型是对 Prune Once For All 80% 1x4 块稀疏预训练 BERT-Base 模型进行微调,并结合知识蒸馏的成果。训练过程中使用了英文维基百科数据集进行预训练,在 SQuAD1.1 数据集上进行微调。具体技术细节可参考 论文: Zafrir et al. (2021)。
📚 引用信息
@article{zafrir2021prune,
title={Prune Once for All: Sparse Pre-Trained Language Models},
author={Zafrir, Ofir and Larey, Ariel and Boudoukh, Guy and Shen, Haihao and Wasserblat, Moshe},
journal={arXiv preprint arXiv:2111.05754},
year={2021}
}