bert-base-uncased-squadv1開源問答模型 - 推理快2.44倍，高效解答問題

首頁

Bert Base Uncased Squadv1 X2.44 F87.7 D26 Hybrid Filled V1

由madlag開發

基於BERT-base uncased模型在SQuAD v1上微調並通過nn_pruning庫修剪的問答模型，保留42%原始權重，推理速度提升2.44倍

問答系統

Transformers

英語開源協議:MIT #問答加速 #結構化修剪 #低資源部署

下載量 17

發布時間 : 3/2/2022

模型概述

這是一個針對問答任務優化的BERT模型，通過結構化修剪技術減少參數規模並提升推理效率，適用於英文問答場景

模型特點

高效推理

通過結構化修剪使推理速度達到原模型的2.44倍

參數優化

保留42%原始權重(線性層僅保留26%)，模型文件從420MB縮減至355MB

注意力頭修剪

144個注意力頭中移除了80個(55.6%)，優化計算效率

模型能力

英文問答

上下文理解

文本提取

使用案例

智能客服

產品知識問答

基於產品文檔自動回答客戶諮詢

F1分數87.71

教育輔助

學習資料問答

從教材文本中提取問題答案

EM分數80.03

🚀 BERT-base無大小寫區分模型在SQuAD v1上的微調版本

本模型解決了在問答任務中模型效率與精度平衡的問題，通過剪枝技術在保證一定準確率的前提下，顯著提升了模型的運行速度。它基於SQuAD v1數據集進行微調，適用於問答相關的自然語言處理任務。

🚀 快速開始

本模型使用 nn_pruning Python庫創建，線性層包含原權重的 26.0%。

整體而言，模型包含原權重的 42.0%（嵌入層在模型中佔比顯著，且此方法未對其進行剪枝）。

在評估中，通過對線性矩陣進行簡單的調整，模型運行速度達到原模型的 2.44倍。這是因為剪枝方法產生了結構化矩陣，將鼠標懸停在下方的圖表上，即可查看每個矩陣的非零/零部分。

在準確率方面，其 F1值為87.71，而原模型的F1值為88.5， F1值下降了0.79。

✨ 主要特性

精細剪枝細節

本模型是基於HuggingFace 模型檢查點在 SQuAD1.1 上進行微調，並從 csarron/bert-base-uncased-squad-v1 模型進行蒸餾得到的。

該模型不區分大小寫，即對於 "english" 和 "English" 不會有不同處理。

塊剪枝的一個副作用是，部分注意力頭被完全移除：在總共144個注意力頭中，有80個被移除（佔比55.6%）。以下是剪枝後剩餘注意力頭在網絡中的詳細分佈情況。

SQuAD1.1數據集詳情

數據集	劃分	樣本數量
SQuAD1.1	訓練集	90.6K
SQuAD1.1	評估集	11.1k

微調信息

Python版本：3.8.5
機器規格：

CPU: Intel(R) Core(TM) i7-6700K CPU
內存: 64 GiB
GPU: 1 GeForce GTX 3090，顯存24GiB
GPU驅動: 455.23.05，CUDA: 11.1

結果

PyTorch模型文件大小：355MB（原始BERT模型：420MB）

指標	值	原始值 (表2)	變化
精確匹配率（EM）	80.03	80.8	-0.77
F1值	87.71	88.5	-0.79

📦 安裝指南

安裝 nn_pruning，它包含優化腳本，可通過移除空行/列將線性層打包成更小的矩陣。

pip install nn_pruning

💻 使用示例

基礎用法

安裝 nn_pruning 後，你可以像往常一樣使用 transformers 庫，只需在加載管道後調用 optimize_model 即可。

from transformers import pipeline
from nn_pruning.inference_model_patcher import optimize_model

qa_pipeline = pipeline(
    "question-answering",
    model="madlag/bert-base-uncased-squadv1-x2.44-f87.7-d26-hybrid-filled-v1",
    tokenizer="madlag/bert-base-uncased-squadv1-x2.44-f87.7-d26-hybrid-filled-v1"
)

print("/home/lagunas/devel/hf/nn_pruning/nn_pruning/analysis/tmp_finetune parameters: 189.0M")
print(f"Parameters count (includes only head pruning, not feed forward pruning)={int(qa_pipeline.model.num_parameters() / 1E6)}M")
qa_pipeline.model = optimize_model(qa_pipeline.model, "dense")

print(f"Parameters count after complete optimization={int(qa_pipeline.model.num_parameters() / 1E6)}M")
predictions = qa_pipeline({
    'context': "Frédéric François Chopin, born Fryderyk Franciszek Chopin (1 March 1810 – 17 October 1849), was a Polish composer and virtuoso pianist of the Romantic era who wrote primarily for solo piano.",
    'question': "Who is Frederic Chopin?",
})
print("Predictions", predictions)