🚀 葡萄牙語BERT基礎大小寫問答模型(基於SQUAD v1.1微調)
該模型是基於SQUAD v1.1葡萄牙語數據集微調的問答模型,可有效處理葡萄牙語的問答任務,為自然語言處理中的問答場景提供了強大的支持。
🚀 快速開始
此模型在由 Deep Learning Brasil 小組 提供的葡萄牙語 SQUAD v1.1 數據集上進行訓練,訓練環境為 Google Colab。所使用的語言模型是來自 Neuralmind.ai 的 BERTimbau Base(又名 “bert-base-portuguese-cased”)。BERTimbau Base 是一個針對巴西葡萄牙語預訓練的 BERT 模型,在命名實體識別、句子文本相似度和文本蘊含識別這三個下游自然語言處理任務中達到了最先進的性能,有基礎版和大型版兩種規格。
✨ 主要特性
- 多領域適用:可用於多種領域的葡萄牙語問答任務。
- 高性能表現:在相關評測指標上取得了較好的成績。
📚 詳細文檔
所有相關信息可查看博客文章:NLP | 基於BERT基礎模型的任意語言問答模型(葡萄牙語案例研究)
📦 安裝指南
你可以通過以下方式獲取模型:
克隆模型倉庫
git lfs install
git clone https://huggingface.co/pierreguillou/bert-base-cased-squad-v1.1-portuguese
GIT_LFS_SKIP_SMUDGE=1
💻 使用示例
基礎用法
使用 pipeline
調用模型:
import transformers
from transformers import pipeline
context = r"""
A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19,
uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2).
A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China,
em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano.
Acredita-se que o vírus tenha uma origem zoonótica, porque os primeiros casos confirmados
tinham principalmente ligações ao Mercado Atacadista de Frutos do Mar de Huanan, que também vendia animais vivos.
Em 11 de março de 2020, a Organização Mundial da Saúde declarou o surto uma pandemia. Até 8 de fevereiro de 2021,
pelo menos 105 743 102 casos da doença foram confirmados em pelo menos 191 países e territórios,
com cerca de 2 308 943 mortes e 58 851 440 pessoas curadas.
"""
model_name = 'pierreguillou/bert-base-cased-squad-v1.1-portuguese'
nlp = pipeline("question-answering", model=model_name)
question = "Quando começou a pandemia de Covid-19 no mundo?"
result = nlp(question=question, context=context)
print(f"Answer: '{result['answer']}', score: {round(result['score'], 4)}, start: {result['start']}, end: {result['end']}")
高級用法
使用 Auto
類調用模型:
from transformers import AutoTokenizer, AutoModelForQuestionAnswering
tokenizer = AutoTokenizer.from_pretrained("pierreguillou/bert-base-cased-squad-v1.1-portuguese")
model = AutoModelForQuestionAnswering.from_pretrained("pierreguillou/bert-base-cased-squad-v1.1-portuguese")
📈 性能表現
模型取得的結果如下:
f1 = 82.50
exact match = 70.49
🔧 技術細節
該模型基於 BERT 架構,在葡萄牙語 SQUAD v1.1 數據集上進行微調訓練,以適應葡萄牙語的問答任務。
⚠️ 侷限性和偏差
此模型使用的訓練數據來自葡萄牙語 SQUAD,可能包含大量未經過濾的內容,存在非中立性和偏差。
📄 許可證
本項目採用 MIT 許可證。
👨💻 作者
葡萄牙語 BERT 基礎大小寫問答模型(基於 SQUAD v1.1 微調)由 Pierre GUILLOU 訓練和評估,得益於眾多組織的開源代碼、平臺和建議(列表鏈接),特別是 Hugging Face、Neuralmind.ai、Deep Learning Brasil 小組、Google Colab 和 AI Lab。
📖 引用
如果使用本項目的成果,請按以下格式引用:
@inproceedings{pierreguillou2021bertbasecasedsquadv11portuguese,
title={Portuguese BERT base cased QA (Question Answering), finetuned on SQUAD v1.1},
author={Pierre Guillou},
year={2021}
}
📋 信息表格
屬性 |
詳情 |
模型類型 |
基於BERT基礎架構的問答模型 |
訓練數據 |
葡萄牙語SQUAD v1.1數據集 |
相關標籤 |
問答、BERT、bert-base、pytorch |
數據集 |
brWaC、squad、squad_v1_pt |
評測指標 |
squad |