bert-base-uncased-squadv1優化問答模型 - 開源助力推理速度提升近2倍

首頁

Bert Base Uncased Squadv1 X1.96 F88.3 D27 Hybrid Filled Opt V1

由madlag開發

基於BERT-base uncased模型在SQuAD v1上微調並優化的問答模型，通過剪枝技術保留43%原始權重，推理速度提升1.96倍

問答系統

Transformers

英語開源協議:MIT #問答系統 #剪枝優化 #快速推理

下載量 20

發布時間 : 3/2/2022

模型概述

這是一個針對問答任務優化的BERT模型，通過nn_pruning工具進行剪枝優化，在保持較高準確率的同時顯著提升推理速度

模型特點

高效剪枝技術

採用nn_pruning工具進行剪枝，保留27%線性層權重，整體保留43%原始權重

推理加速

通過結構化矩陣剪枝，推理速度達到原版的1.96倍

精度保持

F1值僅比原版下降0.17（88.33 vs 88.5），在顯著加速的同時保持高準確率

注意力頭優化

144個注意力頭中剪除55個（38.2%），優化計算效率

模型能力

問答系統

文本理解

上下文提取

使用案例

智能問答

事實性問答

基於給定上下文回答具體問題

F1值88.33，EM值81.31

教育輔助

學習資料理解

幫助學生快速定位教材中的關鍵信息

🚀 BERT-base無大小寫區分模型在SQuAD v1上的微調版本

本模型解決了在問答任務中模型效率和準確性平衡的問題，通過剪枝技術在保證一定準確率的情況下，顯著提升了推理速度，為實際應用提供了更高效的解決方案。

🚀 快速開始

本模型使用 nn_pruning Python庫創建，線性層包含原權重的 27.0%。

⚠️ 重要提示

此模型必須使用nn_pruning的 optimize_model 函數，因為它使用NoNorms而非LayerNorms，目前Transformers庫不直接支持。

為加快推理速度，該模型使用ReLUs而非初始BERT網絡中的GeLUs。這無需特殊處理，因為Transformers庫支持此設置，並在模型配置中通過 "hidden_act": "relu" 條目標記。

模型整體包含原權重的 43.0%（嵌入層佔模型的很大一部分，且此方法未對其進行剪枝）。

在評估中，通過簡單調整線性矩陣大小，該模型的運行速度比bert-base-uncased快 1.96倍。這是因為剪枝方法生成了結構化矩陣，將鼠標懸停在下方的圖上，可查看每個矩陣的非零/零部分。

在準確率方面，其F1值為 88.33，而bert-base-uncased的F1值為 88.5，F1值下降了 0.17。

✨ 主要特性

剪枝優化：通過剪枝技術減少模型參數，提高推理速度。
速度提升：在評估中比bert-base-uncased快1.96倍。
準確率保持：F1值與bert-base-uncased接近，僅下降0.17。

📦 安裝指南

安裝nn_pruning，其中包含優化腳本，該腳本通過移除空行/列將線性層打包成更小的層。

pip install nn_pruning

💻 使用示例

基礎用法

from transformers import pipeline
from nn_pruning.inference_model_patcher import optimize_model

qa_pipeline = pipeline(
    "question-answering",
    model="madlag/bert-base-uncased-squadv1-x1.96-f88.3-d27-hybrid-filled-opt-v1",
    tokenizer="madlag/bert-base-uncased-squadv1-x1.96-f88.3-d27-hybrid-filled-opt-v1"
)

print("bert-base-uncased parameters: 191.0M")
print(f"Parameters count (includes only head pruning, not feed forward pruning)={int(qa_pipeline.model.num_parameters() / 1E6)}M")
qa_pipeline.model = optimize_model(qa_pipeline.model, "dense")

print(f"Parameters count after complete optimization={int(qa_pipeline.model.num_parameters() / 1E6)}M")
predictions = qa_pipeline({
    'context': "Frédéric François Chopin, born Fryderyk Franciszek Chopin (1 March 1810 – 17 October 1849), was a Polish composer and virtuoso pianist of the Romantic era who wrote primarily for solo piano.",
    'question': "Who is Frederic Chopin?",
})
print("Predictions", predictions)

📚 詳細文檔

精細剪枝細節

本模型從HuggingFace的 model 檢查點在 SQuAD1.1 上進行微調，並從模型 bert-large-uncased-whole-word-masking-finetuned-squad 進行蒸餾。

此模型不區分大小寫，即對 "english" 和 "English" 無區別對待。

塊剪枝的一個副作用是部分注意力頭被完全移除，在總共144個注意力頭中，有55個被移除（38.2%）。以下是剪枝後剩餘注意力頭在網絡中的詳細分佈情況。

SQuAD1.1數據集詳情

數據集	劃分	樣本數量
SQuAD1.1	訓練集	90.6K
SQuAD1.1	評估集	11.1k

微調信息

Python版本：3.8.5
機器規格：

CPU: Intel(R) Core(TM) i7-6700K CPU
內存: 64 GiB
GPU: 1 GeForce GTX 3090，顯存24GiB
GPU驅動: 455.23.05，CUDA: 11.1

結果

Pytorch模型文件大小：374MB（原始BERT：420MB）

指標	值	原始值 (Table 2)	變化
EM	81.31	80.8	+0.51
F1	88.33	88.5	-0.17

📄 許可證

本項目採用MIT許可證。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫