🚀 BERT-Small在SQuAD v2上微调模型
本项目使用由Google Research创建的BERT-Small模型,并在2.0版斯坦福问答数据集(SQuAD 2.0)上进行微调,以用于**问答(Q&A)**下游任务。
模型大小(训练后):109.74 MB
🚀 快速开始
这是一个基于BERT-Small在SQuAD v2数据集上微调的问答模型。你可以通过以下代码快速使用该模型进行问答任务:
from transformers import pipeline
qa_pipeline = pipeline(
"question-answering",
model="mrm8488/bert-small-finetuned-squadv2",
tokenizer="mrm8488/bert-small-finetuned-squadv2"
)
qa_pipeline({
'context': "Manuel Romero has been working hardly in the repository hugginface/transformers lately",
'question': "Who has been working hard for hugginface/transformers lately?"
})
{
"answer": "Manuel Romero",
"end": 13,
"score": 0.9939319924374637,
"start": 0
}
✨ 主要特性
BERT-Small及其“家族”详情
该模型于2020年3月11日发布,是24个较小的BERT模型的一部分(仅英文,无大小写区分,使用WordPiece掩码训练),这些模型在论文《Well-Read Students Learn Better: On the Importance of Pre-training Compact Models》中被提及。
较小的BERT模型适用于计算资源受限的环境,它们可以像原始BERT模型一样进行微调。不过,在知识蒸馏的场景中,它们的效果最佳,即微调标签由更大、更准确的“教师”模型生成。
下游任务(问答)详情 - 数据集
2.0版斯坦福问答数据集(SQuAD2.0)将SQuAD1.1中的10万个问题与超过5万个由众包工作者对抗性编写的无法回答的问题相结合,这些无法回答的问题在外观上与可回答的问题相似。要在SQuAD2.0上取得好成绩,系统不仅要在可能的情况下回答问题,还要判断段落何时不支持答案并放弃回答。
数据集 |
划分 |
样本数量 |
SQuAD2.0 |
训练集 |
130k |
SQuAD2.0 |
评估集 |
12.3k |
📦 安装指南
模型在Tesla P100 GPU和25GB内存上进行训练。微调脚本可在此处找到。
💻 使用示例
基础用法
from transformers import pipeline
qa_pipeline = pipeline(
"question-answering",
model="mrm8488/bert-small-finetuned-squadv2",
tokenizer="mrm8488/bert-small-finetuned-squadv2"
)
qa_pipeline({
'context': "Manuel Romero has been working hardly in the repository hugginface/transformers lately",
'question': "Who has been working hard for hugginface/transformers lately?"
})
{
"answer": "Manuel Romero",
"end": 13,
"score": 0.9939319924374637,
"start": 0
}
高级用法
qa_pipeline({
'context': "Manuel Romero has been working hardly in the repository hugginface/transformers lately",
'question': "For which company has worked Manuel Romero?"
})
{
"answer": "hugginface/transformers",
"end": 79,
"score": 0.6024888734447131,
"start": 56
}
📚 详细文档
模型训练结果
指标 |
值 |
精确匹配率(EM) |
60.49 |
F1分数 |
64.21 |
模型对比
📄 许可证
文档未提及相关许可证信息。
由Manuel Romero/@mrm8488创建 | 领英
于西班牙用心打造 ♥