🚀 葡萄牙语BERT基础大小写问答模型(基于SQUAD v1.1微调)
该模型是基于SQUAD v1.1葡萄牙语数据集微调的问答模型,可有效处理葡萄牙语的问答任务,为自然语言处理中的问答场景提供了强大的支持。
🚀 快速开始
此模型在由 Deep Learning Brasil 小组 提供的葡萄牙语 SQUAD v1.1 数据集上进行训练,训练环境为 Google Colab。所使用的语言模型是来自 Neuralmind.ai 的 BERTimbau Base(又名 “bert-base-portuguese-cased”)。BERTimbau Base 是一个针对巴西葡萄牙语预训练的 BERT 模型,在命名实体识别、句子文本相似度和文本蕴含识别这三个下游自然语言处理任务中达到了最先进的性能,有基础版和大型版两种规格。
✨ 主要特性
- 多领域适用:可用于多种领域的葡萄牙语问答任务。
- 高性能表现:在相关评测指标上取得了较好的成绩。
📚 详细文档
所有相关信息可查看博客文章:NLP | 基于BERT基础模型的任意语言问答模型(葡萄牙语案例研究)
📦 安装指南
你可以通过以下方式获取模型:
克隆模型仓库
git lfs install
git clone https://huggingface.co/pierreguillou/bert-base-cased-squad-v1.1-portuguese
GIT_LFS_SKIP_SMUDGE=1
💻 使用示例
基础用法
使用 pipeline
调用模型:
import transformers
from transformers import pipeline
context = r"""
A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19,
uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2).
A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China,
em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano.
Acredita-se que o vírus tenha uma origem zoonótica, porque os primeiros casos confirmados
tinham principalmente ligações ao Mercado Atacadista de Frutos do Mar de Huanan, que também vendia animais vivos.
Em 11 de março de 2020, a Organização Mundial da Saúde declarou o surto uma pandemia. Até 8 de fevereiro de 2021,
pelo menos 105 743 102 casos da doença foram confirmados em pelo menos 191 países e territórios,
com cerca de 2 308 943 mortes e 58 851 440 pessoas curadas.
"""
model_name = 'pierreguillou/bert-base-cased-squad-v1.1-portuguese'
nlp = pipeline("question-answering", model=model_name)
question = "Quando começou a pandemia de Covid-19 no mundo?"
result = nlp(question=question, context=context)
print(f"Answer: '{result['answer']}', score: {round(result['score'], 4)}, start: {result['start']}, end: {result['end']}")
高级用法
使用 Auto
类调用模型:
from transformers import AutoTokenizer, AutoModelForQuestionAnswering
tokenizer = AutoTokenizer.from_pretrained("pierreguillou/bert-base-cased-squad-v1.1-portuguese")
model = AutoModelForQuestionAnswering.from_pretrained("pierreguillou/bert-base-cased-squad-v1.1-portuguese")
📈 性能表现
模型取得的结果如下:
f1 = 82.50
exact match = 70.49
🔧 技术细节
该模型基于 BERT 架构,在葡萄牙语 SQUAD v1.1 数据集上进行微调训练,以适应葡萄牙语的问答任务。
⚠️ 局限性和偏差
此模型使用的训练数据来自葡萄牙语 SQUAD,可能包含大量未经过滤的内容,存在非中立性和偏差。
📄 许可证
本项目采用 MIT 许可证。
👨💻 作者
葡萄牙语 BERT 基础大小写问答模型(基于 SQUAD v1.1 微调)由 Pierre GUILLOU 训练和评估,得益于众多组织的开源代码、平台和建议(列表链接),特别是 Hugging Face、Neuralmind.ai、Deep Learning Brasil 小组、Google Colab 和 AI Lab。
📖 引用
如果使用本项目的成果,请按以下格式引用:
@inproceedings{pierreguillou2021bertbasecasedsquadv11portuguese,
title={Portuguese BERT base cased QA (Question Answering), finetuned on SQUAD v1.1},
author={Pierre Guillou},
year={2021}
}
📋 信息表格
属性 |
详情 |
模型类型 |
基于BERT基础架构的问答模型 |
训练数据 |
葡萄牙语SQUAD v1.1数据集 |
相关标签 |
问答、BERT、bert-base、pytorch |
数据集 |
brWaC、squad、squad_v1_pt |
评测指标 |
squad |