bert-base-uncased-squadv1-x1.84開源問答模型 - 優化剪枝精準回答問題

首頁

Bert Base Uncased Squadv1 X1.84 F88.7 D36 Hybrid Filled V1

由madlag開發

這是一個通過nn_pruning庫剪枝優化的問答模型，保留了50%原始權重，在SQuAD v1上微調，F1值達88.72

問答系統

Transformers

英語開源協議:MIT #問答系統優化 #剪枝加速 #高F1值

下載量 30

發布時間 : 3/2/2022

模型概述

該模型基於BERT架構，針對問答任務優化，通過結構化剪枝提升推理速度1.84倍，同時保持高準確率

模型特點

高效剪枝技術

通過nn_pruning庫實現結構化剪枝，保留36%線性層權重，整體保留50%模型參數

加速推理

推理速度達到密集模型的1.84倍，得益於優化的矩陣結構

注意力頭優化

移除了33.3%的注意力頭（144箇中移除48個），提升計算效率

性能提升

F1值比原始模型提升0.22（88.72 vs 88.5），EM值提升0.89（81.69 vs 80.8）

模型能力

文本理解

問題回答

上下文提取

使用案例

教育

閱讀理解輔助

幫助學生快速從文本中獲取問題答案

在SQuAD測試集上F1達88.72

知識管理

文檔問答系統

從技術文檔中自動提取問題答案

🚀 BERT-base無大小寫區分模型在SQuAD v1上微調

本項目是一個基於BERT-base無大小寫區分模型在SQuAD v1數據集上進行微調的問答系統。通過使用特定的剪枝技術，在保證模型性能的同時，顯著提升了模型的推理速度。

✨ 主要特性

高效推理：通過剪枝技術，模型在評估時的運行速度比密集模型快1.84倍。
性能提升：與密集版本相比，F1分數提高了0.22，達到了88.72。
參數減少：線性層僅保留了原權重的36.0%，整體模型保留了原權重的50.0%。

📦 安裝指南

安裝nn_pruning庫，其中包含優化腳本，可通過移除空行/列將線性層打包成更小的矩陣。

pip install nn_pruning

💻 使用示例

基礎用法

from transformers import pipeline
from nn_pruning.inference_model_patcher import optimize_model

qa_pipeline = pipeline(
    "question-answering",
    model="madlag/bert-base-uncased-squadv1-x1.84-f88.7-d36-hybrid-filled-v1",
    tokenizer="madlag/bert-base-uncased-squadv1-x1.84-f88.7-d36-hybrid-filled-v1"
)

print("/home/lagunas/devel/hf/nn_pruning/nn_pruning/analysis/tmp_finetune parameters: 218.0M")
print(f"Parameters count (includes only head pruning, not feed forward pruning)={int(qa_pipeline.model.num_parameters() / 1E6)}M")
qa_pipeline.model = optimize_model(qa_pipeline.model, "dense")

print(f"Parameters count after complete optimization={int(qa_pipeline.model.num_parameters() / 1E6)}M")
predictions = qa_pipeline({
    'context': "Frédéric François Chopin, born Fryderyk Franciszek Chopin (1 March 1810 – 17 October 1849), was a Polish composer and virtuoso pianist of the Romantic era who wrote primarily for solo piano.",
    'question': "Who is Frederic Chopin?",
})
print("Predictions", predictions)

📚 詳細文檔

模型信息

屬性	詳情
模型類型	BERT-base無大小寫區分模型在SQuAD v1上微調
訓練數據	SQuAD1.1

SQuAD1.1數據集詳情

數據集	劃分	樣本數量
SQuAD1.1	訓練集	90.6K
SQuAD1.1	評估集	11.1K

微調信息

Python版本：3.8.5
機器規格：

CPU: Intel(R) Core(TM) i7-6700K CPU
內存: 64 GiB
GPU: 1 GeForce GTX 3090，顯存24GiB
GPU驅動: 455.23.05，CUDA: 11.1

結果

Pytorch模型文件大小：379MB（原始BERT：420MB）

指標	值	原始值 (表2)	變化
EM	81.69	80.8	+0.89
F1	88.72	88.5	+0.22

🔧 技術細節

精細剪枝詳情

本模型是從HuggingFace的模型檢查點在SQuAD1.1上進行微調，並從模型csarron/bert-base-uncased-squad-v1進行蒸餾得到的。該模型不區分大小寫，即對英文的大小寫不做區分。

塊剪枝的一個副作用是部分注意力頭被完全移除：在總共144個注意力頭中，有48個（33.3%）被移除。以下是剪枝後剩餘注意力頭在網絡中的分佈詳情。

在評估時，通過對線性矩陣進行簡單的調整，模型的運行速度比密集模型快1.84倍。這是因為剪枝方法產生了結構化矩陣，你可以將鼠標懸停在下面的圖表上，查看每個矩陣的非零/零部分。

📄 許可證

本項目採用MIT許可證。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫