bert-base-uncased-squad-v1開源問答系統模型 - 精準回答問題，免費使用！

首頁

Bert Base Uncased Squad V1

由csarron開發

基於BERT基礎uncased模型在SQuAD1.1數據集上微調的問答系統模型

問答系統英語開源協議:MIT #英文問答系統 #BERT微調 #SQuAD數據集

下載量 1,893

發布時間 : 3/2/2022

模型概述

該模型是一個問答系統模型，專門用於從給定上下文中提取答案。它基於BERT架構，在SQuAD1.1數據集上進行了微調，能夠處理不區分大小寫的英文文本。

模型特點

不區分大小寫

模型對輸入文本的大小寫不敏感，能夠處理不同大小寫形式的文本

高性能問答

在SQuAD1.1評估集上達到80.9的精確匹配率和88.2的F1分數

基於BERT架構

利用BERT強大的雙向Transformer編碼能力，能夠理解上下文並準確提取答案

模型能力

從文本中提取答案

理解上下文語義

處理不區分大小寫的文本

使用案例

問答系統

事實性問題回答

從給定文本中回答具體事實性問題

如示例所示，能準確提取'2016年2月7日'這樣的具體日期信息

地理信息查詢

從地理相關文本中提取特定信息

如示例所示，能準確回答'亞馬遜雨林在英語中的別稱'等問題

🚀 BERT-base uncased模型在SQuAD v1上微調

該模型是在HuggingFace的BERT基礎無大小寫檢查的檢查點上，針對SQuAD1.1數據集進行微調得到的。此模型不區分大小寫，即“english”和“English”對它來說沒有區別。

🚀 快速開始

此模型是從HuggingFace的BERT基礎無大小寫檢查的檢查點在SQuAD1.1上微調而來。該模型不區分大小寫。

✨ 主要特性

基於BERT基礎無大小寫檢查模型微調，適用於問答任務。
不區分大小寫，在處理文本時更加靈活。

📦 安裝指南

在使用該模型前，需要安裝相關依賴。可以通過以下步驟進行安裝：

# 安裝Hugging Face的transformers庫
pip install transformers

💻 使用示例

基礎用法

from transformers import pipeline

qa_pipeline = pipeline(
    "question-answering",
    model="csarron/bert-base-uncased-squad-v1",
    tokenizer="csarron/bert-base-uncased-squad-v1"
)

predictions = qa_pipeline({
    'context': "The game was played on February 7, 2016 at Levi's Stadium in the San Francisco Bay Area at Santa Clara, California.",
    'question': "What day was the game played on?"
})

print(predictions)
# output:
# {'score': 0.8730505704879761, 'start': 23, 'end': 39, 'answer': 'February 7, 2016'}

📚 詳細文檔

數據集詳情

數據集	劃分	樣本數量
SQuAD1.1	訓練集	90.6K
SQuAD1.1	評估集	11.1k

微調詳情

Python版本：3.7.5
機器規格：
- CPU：Intel(R) Core(TM) i7 - 6800K CPU @ 3.40GHz
- 內存：32 GiB
- GPU：2塊GeForce GTX 1070，每塊顯存8GiB
- GPU驅動：418.87.01，CUDA：10.1
微調腳本：

# 在安裝https://github.com/huggingface/transformers之後
cd examples/question-answering
mkdir -p data

wget -O data/train-v1.1.json https://rajpurkar.github.io/SQuAD-explorer/dataset/train-v1.1.json

wget -O data/dev-v1.1.json  https://rajpurkar.github.io/SQuAD-explorer/dataset/dev-v1.1.json

python run_squad.py \
    --model_type bert \
    --model_name_or_path bert-base-uncased \
    --do_train \
    --do_eval \
    --do_lower_case \
    --train_file train-v1.1.json \
    --predict_file dev-v1.1.json \
    --per_gpu_train_batch_size 12 \
    --per_gpu_eval_batch_size=16 \
    --learning_rate 3e-5 \
    --num_train_epochs 2.0 \
    --max_seq_length 320 \
    --doc_stride 128 \
    --data_dir data \
    --output_dir data/bert-base-uncased-squad-v1 2>&1 | tee train-energy-bert-base-squad-v1.log

微調大約需要2小時完成。