bert-base-uncased-squadv1-x1.84开源问答模型 - 优化剪枝精准回答问题

首页

Bert Base Uncased Squadv1 X1.84 F88.7 D36 Hybrid Filled V1

由 madlag 开发

这是一个通过nn_pruning库剪枝优化的问答模型，保留了50%原始权重，在SQuAD v1上微调，F1值达88.72

问答系统

Transformers

英语开源协议:MIT #问答系统优化 #剪枝加速 #高F1值

下载量 30

发布时间 : 3/2/2022

模型简介

该模型基于BERT架构，针对问答任务优化，通过结构化剪枝提升推理速度1.84倍，同时保持高准确率

模型特点

高效剪枝技术

通过nn_pruning库实现结构化剪枝，保留36%线性层权重，整体保留50%模型参数

加速推理

推理速度达到密集模型的1.84倍，得益于优化的矩阵结构

注意力头优化

移除了33.3%的注意力头（144个中移除48个），提升计算效率

性能提升

F1值比原始模型提升0.22（88.72 vs 88.5），EM值提升0.89（81.69 vs 80.8）

模型能力

文本理解

问题回答

上下文提取

使用案例

教育

阅读理解辅助

帮助学生快速从文本中获取问题答案

在SQuAD测试集上F1达88.72

知识管理

文档问答系统

从技术文档中自动提取问题答案

🚀 BERT-base无大小写区分模型在SQuAD v1上微调

本项目是一个基于BERT-base无大小写区分模型在SQuAD v1数据集上进行微调的问答系统。通过使用特定的剪枝技术，在保证模型性能的同时，显著提升了模型的推理速度。

✨ 主要特性

高效推理：通过剪枝技术，模型在评估时的运行速度比密集模型快1.84倍。
性能提升：与密集版本相比，F1分数提高了0.22，达到了88.72。
参数减少：线性层仅保留了原权重的36.0%，整体模型保留了原权重的50.0%。

📦 安装指南

安装nn_pruning库，其中包含优化脚本，可通过移除空行/列将线性层打包成更小的矩阵。

pip install nn_pruning

💻 使用示例

基础用法

from transformers import pipeline
from nn_pruning.inference_model_patcher import optimize_model

qa_pipeline = pipeline(
    "question-answering",
    model="madlag/bert-base-uncased-squadv1-x1.84-f88.7-d36-hybrid-filled-v1",
    tokenizer="madlag/bert-base-uncased-squadv1-x1.84-f88.7-d36-hybrid-filled-v1"
)

print("/home/lagunas/devel/hf/nn_pruning/nn_pruning/analysis/tmp_finetune parameters: 218.0M")
print(f"Parameters count (includes only head pruning, not feed forward pruning)={int(qa_pipeline.model.num_parameters() / 1E6)}M")
qa_pipeline.model = optimize_model(qa_pipeline.model, "dense")

print(f"Parameters count after complete optimization={int(qa_pipeline.model.num_parameters() / 1E6)}M")
predictions = qa_pipeline({
    'context': "Frédéric François Chopin, born Fryderyk Franciszek Chopin (1 March 1810 – 17 October 1849), was a Polish composer and virtuoso pianist of the Romantic era who wrote primarily for solo piano.",
    'question': "Who is Frederic Chopin?",
})
print("Predictions", predictions)

📚 详细文档

模型信息

属性	详情
模型类型	BERT-base无大小写区分模型在SQuAD v1上微调
训练数据	SQuAD1.1

SQuAD1.1数据集详情

数据集	划分	样本数量
SQuAD1.1	训练集	90.6K
SQuAD1.1	评估集	11.1K

微调信息

Python版本：3.8.5
机器规格：

CPU: Intel(R) Core(TM) i7-6700K CPU
内存: 64 GiB
GPU: 1 GeForce GTX 3090，显存24GiB
GPU驱动: 455.23.05，CUDA: 11.1

结果

Pytorch模型文件大小：379MB（原始BERT：420MB）

指标	值	原始值 (表2)	变化
EM	81.69	80.8	+0.89
F1	88.72	88.5	+0.22

🔧 技术细节

精细剪枝详情

本模型是从HuggingFace的模型检查点在SQuAD1.1上进行微调，并从模型csarron/bert-base-uncased-squad-v1进行蒸馏得到的。该模型不区分大小写，即对英文的大小写不做区分。

块剪枝的一个副作用是部分注意力头被完全移除：在总共144个注意力头中，有48个（33.3%）被移除。以下是剪枝后剩余注意力头在网络中的分布详情。

在评估时，通过对线性矩阵进行简单的调整，模型的运行速度比密集模型快1.84倍。这是因为剪枝方法产生了结构化矩阵，你可以将鼠标悬停在下面的图表上，查看每个矩阵的非零/零部分。

📄 许可证

本项目采用MIT许可证。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库