bert-base-uncased-squadv1優化問答模型 - 開源免費，推理提速2倍多，F1大幅提升

首頁

Bert Base Uncased Squadv1 X2.01 F89.2 D30 Hybrid Rewind Opt V1

由madlag開發

基於BERT-base uncased模型在SQuAD v1上微調的問答系統模型，通過nn_pruning庫進行剪枝優化，推理速度提升2.01倍，F1得分提升0.69。

問答系統

Transformers

英語開源協議:MIT #問答加速 #剪枝優化 #高F1得分

下載量 22

發布時間 : 3/2/2022

模型概述

這是一個針對問答任務優化的BERT模型，通過結構化剪枝和蒸餾技術實現高效推理，適用於從給定文本中提取答案的任務。

模型特點

高效推理

通過結構化剪枝技術，模型運行速度達到原始BERT的2.01倍

性能提升

F1得分89.19，較原始BERT提升0.69

注意力頭優化

144個注意力頭中移除了55個(38.2%)，保留關鍵注意力模式

激活函數優化

將GeLU替換為ReLU以加速推理，無需特殊處理

模型能力

文本問答

上下文理解

答案提取

使用案例

教育

歷史知識問答

從歷史文本中提取特定問題的答案

準確識別埃菲爾鐵塔位置等事實信息

信息檢索

文檔問答系統

從技術文檔中快速定位答案

F1得分89.19的準確率

🚀 BERT-base無大小寫區分模型在SQuAD v1上的微調

本模型解決了在問答任務中模型推理速度和準確性平衡的問題，通過對BERT模型進行剪枝優化，在保證一定準確率提升的同時，顯著提高了推理速度，為問答系統提供了更高效的解決方案。

🚀 快速開始

本模型使用 nn_pruning Python庫創建，在使用時需注意相關依賴和優化步驟。

✨ 主要特性

權重剪枝：線性層包含原權重的30.0%，整體模型包含原權重的45.0%。
激活函數替換：使用ReLU代替GeLU，加快推理速度。
速度提升：在評估中運行速度比bert-base-uncased快2.01倍。
準確率提升：F1值達到89.19，相比bert-base-uncased提升了0.69。

📦 安裝指南

安裝nn_pruning庫，它包含優化腳本，可通過移除空行/列將線性層打包成更小的層。

pip install nn_pruning

💻 使用示例

基礎用法

from transformers import pipeline
from nn_pruning.inference_model_patcher import optimize_model

qa_pipeline = pipeline(
    "question-answering",
    model="madlag/bert-base-uncased-squadv1-x2.01-f89.2-d30-hybrid-rewind-opt-v1",
    tokenizer="madlag/bert-base-uncased-squadv1-x2.01-f89.2-d30-hybrid-rewind-opt-v1"
)

print("bert-base-uncased參數數量: 200.0M")
print(f"參數數量（僅包括注意力頭剪枝，不包括前饋層剪枝）={int(qa_pipeline.model.num_parameters() / 1E6)}M")
qa_pipeline.model = optimize_model(qa_pipeline.model, "dense")

print(f"完全優化後的參數數量={int(qa_pipeline.model.num_parameters() / 1E6)}M")
predictions = qa_pipeline({
    'context': "Frédéric François Chopin, born Fryderyk Franciszek Chopin (1 March 1810 – 17 October 1849), was a Polish composer and virtuoso pianist of the Romantic era who wrote primarily for solo piano.",
    'question': "Who is Frederic Chopin?",
})
print("預測結果", predictions)

📚 詳細文檔

模型剪枝細節

本模型從HuggingFace的 bert-base-uncased 檢查點在 SQuAD1.1 上進行微調，並從 bert-large-uncased-whole-word-masking-finetuned-squad 模型進行蒸餾。模型不區分大小寫。

塊剪枝的一個副作用是部分注意力頭被完全移除，在總共144個頭中移除了55個（38.2%）。

SQuAD1.1數據集詳情

數據集	分割	樣本數量
SQuAD1.1	訓練集	90.6K
SQuAD1.1	評估集	11.1k

微調信息

Python版本：3.8.5
機器規格：

CPU: Intel(R) Core(TM) i7 - 6700K CPU
內存: 64 GiB
GPU: 1 GeForce GTX 3090，顯存24GiB
GPU驅動: 455.23.05，CUDA: 11.1

結果

Pytorch模型文件大小：374MB（原始BERT：420MB）

指標	值	原始值 (表2)	變化
EM	82.21	80.8	+1.41
F1	89.19	88.5	+0.69

🔧 技術細節

本模型使用NoNorms代替LayerNorms，這一特性目前不被Transformers庫原生支持，因此必須使用nn_pruning的 optimize_model 函數。同時，模型使用ReLU代替GeLU以加快推理速度，這在Transformers庫中是被支持的，並在模型配置中通過 "hidden_act": "relu" 條目標記。剪枝方法使得矩陣具有結構化特徵，通過可視化可以看到矩陣的非零/零部分。