bert-base-uncased-squad-v1开源问答系统模型 - 精准回答问题，免费使用！

首页

Bert Base Uncased Squad V1

由 csarron 开发

基于BERT基础uncased模型在SQuAD1.1数据集上微调的问答系统模型

问答系统英语开源协议:MIT #英文问答系统 #BERT微调 #SQuAD数据集

下载量 1,893

发布时间 : 3/2/2022

模型简介

该模型是一个问答系统模型，专门用于从给定上下文中提取答案。它基于BERT架构，在SQuAD1.1数据集上进行了微调，能够处理不区分大小写的英文文本。

模型特点

不区分大小写

模型对输入文本的大小写不敏感，能够处理不同大小写形式的文本

高性能问答

在SQuAD1.1评估集上达到80.9的精确匹配率和88.2的F1分数

基于BERT架构

利用BERT强大的双向Transformer编码能力，能够理解上下文并准确提取答案

模型能力

从文本中提取答案

理解上下文语义

处理不区分大小写的文本

使用案例

问答系统

事实性问题回答

从给定文本中回答具体事实性问题

如示例所示，能准确提取'2016年2月7日'这样的具体日期信息

地理信息查询

从地理相关文本中提取特定信息

如示例所示，能准确回答'亚马逊雨林在英语中的别称'等问题

🚀 BERT-base uncased模型在SQuAD v1上微调

该模型是在HuggingFace的BERT基础无大小写检查的检查点上，针对SQuAD1.1数据集进行微调得到的。此模型不区分大小写，即“english”和“English”对它来说没有区别。

🚀 快速开始

此模型是从HuggingFace的BERT基础无大小写检查的检查点在SQuAD1.1上微调而来。该模型不区分大小写。

✨ 主要特性

基于BERT基础无大小写检查模型微调，适用于问答任务。
不区分大小写，在处理文本时更加灵活。

📦 安装指南

在使用该模型前，需要安装相关依赖。可以通过以下步骤进行安装：

# 安装Hugging Face的transformers库
pip install transformers

💻 使用示例

基础用法

from transformers import pipeline

qa_pipeline = pipeline(
    "question-answering",
    model="csarron/bert-base-uncased-squad-v1",
    tokenizer="csarron/bert-base-uncased-squad-v1"
)

predictions = qa_pipeline({
    'context': "The game was played on February 7, 2016 at Levi's Stadium in the San Francisco Bay Area at Santa Clara, California.",
    'question': "What day was the game played on?"
})

print(predictions)
# output:
# {'score': 0.8730505704879761, 'start': 23, 'end': 39, 'answer': 'February 7, 2016'}

📚 详细文档

数据集详情

数据集	划分	样本数量
SQuAD1.1	训练集	90.6K
SQuAD1.1	评估集	11.1k

微调详情

Python版本：3.7.5
机器规格：
- CPU：Intel(R) Core(TM) i7 - 6800K CPU @ 3.40GHz
- 内存：32 GiB
- GPU：2块GeForce GTX 1070，每块显存8GiB
- GPU驱动：418.87.01，CUDA：10.1
微调脚本：

# 在安装https://github.com/huggingface/transformers之后
cd examples/question-answering
mkdir -p data

wget -O data/train-v1.1.json https://rajpurkar.github.io/SQuAD-explorer/dataset/train-v1.1.json

wget -O data/dev-v1.1.json  https://rajpurkar.github.io/SQuAD-explorer/dataset/dev-v1.1.json

python run_squad.py \
    --model_type bert \
    --model_name_or_path bert-base-uncased \
    --do_train \
    --do_eval \
    --do_lower_case \
    --train_file train-v1.1.json \
    --predict_file dev-v1.1.json \
    --per_gpu_train_batch_size 12 \
    --per_gpu_eval_batch_size=16 \
    --learning_rate 3e-5 \
    --num_train_epochs 2.0 \
    --max_seq_length 320 \
    --doc_stride 128 \
    --data_dir data \
    --output_dir data/bert-base-uncased-squad-v1 2>&1 | tee train-energy-bert-base-squad-v1.log

微调大约需要2小时完成。