MobileBERT Uncased SQuAD V1開源問答模型 - 輕量化設計高效處理問答任務

首頁

Mobilebert Uncased Squad V1

由csarron開發

MobileBERT是BERT_LARGE的輕量化版本，採用瓶頸結構設計，在自注意力機制與前饋網絡之間實現平衡。本模型在SQuAD1.1數據集上微調，適用於問答任務。

問答系統

Transformers

英語開源協議:MIT #輕量級問答 #高效推理 #英語閱讀理解

下載量 160

發布時間 : 3/2/2022

模型概述

一個輕量級的問答系統模型，基於MobileBERT架構，專門針對閱讀理解任務進行優化。

模型特點

輕量化設計

採用MobileBERT架構，相比標準BERT模型更輕量，適合移動端和資源受限環境。

高效性能

在SQuAD1.1數據集上達到82.6 EM和90.0 F1分數，接近原論文報告的性能。

快速訓練

在雙GPU配置下僅需約3小時即可完成微調訓練。

模型能力

閱讀理解

問答系統

文本理解

信息提取

使用案例

教育

閱讀理解輔助

幫助學生快速從文本中查找問題答案

準確率82.6 EM/90.0 F1

信息檢索

文檔問答系統

從大型文檔中快速定位相關信息

🚀 MobileBERT在SQuAD v1上的微調模型

本項目基於MobileBERT模型，在SQuAD v1數據集上進行微調，用於問答任務。MobileBERT是BERT_LARGE的精簡版本，採用了瓶頸結構，並精心平衡了自注意力機制和前饋網絡。

🚀 快速開始

模型介紹

MobileBERT 是BERT_LARGE的精簡版，具備瓶頸結構，且在自注意力機制和前饋網絡之間實現了精心設計的平衡。

本模型是在 SQuAD1.1 數據集上，從HuggingFace的檢查點 google/mobilebert-uncased 進行微調得到的。

📚 詳細文檔

數據集詳情

數據集	劃分	樣本數量
SQuAD1.1	訓練集	90.6K
SQuAD1.1	評估集	11.1k

微調細節

Python版本：3.7.5
機器配置：
- CPU：Intel(R) Core(TM) i7 - 6800K CPU @ 3.40GHz
- 內存：32 GiB
- GPU：2塊GeForce GTX 1070，每塊顯存8GiB
- GPU驅動：418.87.01，CUDA：10.1
腳本命令：

# 安裝 https://github.com/huggingface/transformers 之後
cd examples/question-answering
mkdir -p data

wget -O data/train-v1.1.json https://rajpurkar.github.io/SQuAD-explorer/dataset/train-v1.1.json

wget -O data/dev-v1.1.json  https://rajpurkar.github.io/SQuAD-explorer/dataset/dev-v1.1.json

export SQUAD_DIR=`pwd`/data

python run_squad.py \
    --model_type mobilebert \
    --model_name_or_path google/mobilebert-uncased \
    --do_train \
    --do_eval \
    --do_lower_case \
    --train_file $SQUAD_DIR/train-v1.1.json \
    --predict_file $SQUAD_DIR/dev-v1.1.json \
    --per_gpu_train_batch_size 16 \
    --per_gpu_eval_batch_size 16 \
    --learning_rate 4e-5 \
    --num_train_epochs 5.0 \
    --max_seq_length 320 \
    --doc_stride 128 \
    --warmup_steps 1400 \
    --output_dir $SQUAD_DIR/mobilebert-uncased-warmup-squad_v1 2>&1 | tee train-mobilebert-warmup-squad_v1.log

微調過程大約耗時3小時。

模型效果

模型大小：95M

指標	數值	原始論文數值 (Table 5)
精確匹配率 (EM)	82.6	82.9
F1值	90.0	90.0

注意，以上結果未進行任何超參數搜索。

💻 使用示例

基礎用法

from transformers import pipeline

qa_pipeline = pipeline(
    "question-answering",
    model="csarron/mobilebert-uncased-squad-v1",
    tokenizer="csarron/mobilebert-uncased-squad-v1"
)

predictions = qa_pipeline({
    'context': "The game was played on February 7, 2016 at Levi's Stadium in the San Francisco Bay Area at Santa Clara, California.",
    'question': "What day was the game played on?"
})

print(predictions)
# 輸出:
# {'score': 0.7754058241844177, 'start': 23, 'end': 39, 'answer': 'February 7, 2016'}