bert-base-uncased-squadv1优化问答模型 - 开源免费，推理提速2倍多，F1大幅提升

首页

Bert Base Uncased Squadv1 X2.01 F89.2 D30 Hybrid Rewind Opt V1

由 madlag 开发

基于BERT-base uncased模型在SQuAD v1上微调的问答系统模型，通过nn_pruning库进行剪枝优化，推理速度提升2.01倍，F1得分提升0.69。

问答系统

Transformers

英语开源协议:MIT #问答加速 #剪枝优化 #高F1得分

下载量 22

发布时间 : 3/2/2022

模型简介

这是一个针对问答任务优化的BERT模型，通过结构化剪枝和蒸馏技术实现高效推理，适用于从给定文本中提取答案的任务。

模型特点

高效推理

通过结构化剪枝技术，模型运行速度达到原始BERT的2.01倍

性能提升

F1得分89.19，较原始BERT提升0.69

注意力头优化

144个注意力头中移除了55个(38.2%)，保留关键注意力模式

激活函数优化

将GeLU替换为ReLU以加速推理，无需特殊处理

模型能力

文本问答

上下文理解

答案提取

使用案例

教育

历史知识问答

从历史文本中提取特定问题的答案

准确识别埃菲尔铁塔位置等事实信息

信息检索

文档问答系统

从技术文档中快速定位答案

F1得分89.19的准确率

🚀 BERT-base无大小写区分模型在SQuAD v1上的微调

本模型解决了在问答任务中模型推理速度和准确性平衡的问题，通过对BERT模型进行剪枝优化，在保证一定准确率提升的同时，显著提高了推理速度，为问答系统提供了更高效的解决方案。

🚀 快速开始

本模型使用 nn_pruning Python库创建，在使用时需注意相关依赖和优化步骤。

✨ 主要特性

权重剪枝：线性层包含原权重的30.0%，整体模型包含原权重的45.0%。
激活函数替换：使用ReLU代替GeLU，加快推理速度。
速度提升：在评估中运行速度比bert-base-uncased快2.01倍。
准确率提升：F1值达到89.19，相比bert-base-uncased提升了0.69。

📦 安装指南

安装nn_pruning库，它包含优化脚本，可通过移除空行/列将线性层打包成更小的层。

pip install nn_pruning

💻 使用示例

基础用法

from transformers import pipeline
from nn_pruning.inference_model_patcher import optimize_model

qa_pipeline = pipeline(
    "question-answering",
    model="madlag/bert-base-uncased-squadv1-x2.01-f89.2-d30-hybrid-rewind-opt-v1",
    tokenizer="madlag/bert-base-uncased-squadv1-x2.01-f89.2-d30-hybrid-rewind-opt-v1"
)

print("bert-base-uncased参数数量: 200.0M")
print(f"参数数量（仅包括注意力头剪枝，不包括前馈层剪枝）={int(qa_pipeline.model.num_parameters() / 1E6)}M")
qa_pipeline.model = optimize_model(qa_pipeline.model, "dense")

print(f"完全优化后的参数数量={int(qa_pipeline.model.num_parameters() / 1E6)}M")
predictions = qa_pipeline({
    'context': "Frédéric François Chopin, born Fryderyk Franciszek Chopin (1 March 1810 – 17 October 1849), was a Polish composer and virtuoso pianist of the Romantic era who wrote primarily for solo piano.",
    'question': "Who is Frederic Chopin?",
})
print("预测结果", predictions)

📚 详细文档

模型剪枝细节

本模型从HuggingFace的 bert-base-uncased 检查点在 SQuAD1.1 上进行微调，并从 bert-large-uncased-whole-word-masking-finetuned-squad 模型进行蒸馏。模型不区分大小写。

块剪枝的一个副作用是部分注意力头被完全移除，在总共144个头中移除了55个（38.2%）。

SQuAD1.1数据集详情

数据集	分割	样本数量
SQuAD1.1	训练集	90.6K
SQuAD1.1	评估集	11.1k

微调信息

Python版本：3.8.5
机器规格：

CPU: Intel(R) Core(TM) i7 - 6700K CPU
内存: 64 GiB
GPU: 1 GeForce GTX 3090，显存24GiB
GPU驱动: 455.23.05，CUDA: 11.1

结果

Pytorch模型文件大小：374MB（原始BERT：420MB）

指标	值	原始值 (表2)	变化
EM	82.21	80.8	+1.41
F1	89.19	88.5	+0.69

🔧 技术细节

本模型使用NoNorms代替LayerNorms，这一特性目前不被Transformers库原生支持，因此必须使用nn_pruning的 optimize_model 函数。同时，模型使用ReLU代替GeLU以加快推理速度，这在Transformers库中是被支持的，并在模型配置中通过 "hidden_act": "relu" 条目标记。剪枝方法使得矩阵具有结构化特征，通过可视化可以看到矩阵的非零/零部分。