🚀 意大利語BERT在SQuAD_it v1上微調模型
該項目基於 意大利語BERT基礎大小寫敏感模型,在 意大利語SQuAD 數據集上進行微調,用於問答下游任務。
✨ 主要特性
- 基於意大利語BERT基礎模型,適用於意大利語問答場景。
- 在大規模意大利語數據集上進行微調,性能表現出色。
📚 詳細文檔
意大利語BERT模型詳情
意大利語BERT模型的源數據包括近期的維基百科轉儲和來自OPUS語料庫集合的各種文本。最終的訓練語料庫大小為13GB,包含2,050,057,573個標記。
在句子分割方面,我們使用NLTK(相比spacy更快)。我們的大小寫敏感和不敏感模型在初始序列長度為512個子詞的情況下訓練了約200 - 300萬步。
對於XXL意大利語模型,我們使用了來自OPUS的相同訓練數據,並擴展了OSCAR語料庫意大利部分的數據。因此,最終的訓練語料庫大小為81GB,包含13,138,379,147個標記。
更多信息請參考其官方 模型卡片。
該模型由 Stefan 在 MDZ 創建。
下游任務(問答)詳情 - 數據集 📚 🧐 ❓
意大利語SQuAD v1.1 源自SQuAD數據集,是通過將SQuAD數據集半自動翻譯成意大利語而獲得的。它代表了一個大規模的意大利語事實問答開放數據集。
該數據集包含超過60,000個問題/答案對,源自原始的英語數據集。數據集被分為訓練集和測試集,以支持問答系統基準測試的可重複性:
SQuAD_it-train.json
:包含源自原始SQuAD 1.1訓練材料的訓練示例。
SQuAD_it-test.json
:包含源自原始SQuAD 1.1開發材料的測試/基準測試示例。
有關SQuAD-it的更多詳細信息,請參閱 Croce等人2018年的論文。
模型訓練 🏋️
該模型在Tesla P100 GPU和25GB內存上進行訓練。
微調腳本可在 此處 找到。
結果 📝
指標 |
值 |
精確匹配率(EM) |
62.51 |
F1分數 |
74.16 |
原始指標
{
"exact": 62.5180707057432,
"f1": 74.16038329042492,
"total": 7609,
"HasAns_exact": 62.5180707057432,
"HasAns_f1": 74.16038329042492,
"HasAns_total": 7609,
"best_exact": 62.5180707057432,
"best_exact_thresh": 0.0,
"best_f1": 74.16038329042492,
"best_f1_thresh": 0.0
}
對比 ⚖️
💻 使用示例
基礎用法
使用管道進行快速使用 🧪
from transformers import pipeline
nlp_qa = pipeline(
'question-answering',
model='mrm8488/bert-italian-finedtuned-squadv1-it-alfa',
tokenizer='mrm8488/bert-italian-finedtuned-squadv1-it-alfa'
)
nlp_qa(
{
'question': 'Per quale lingua stai lavorando?',
'context': 'Manuel Romero è colaborando attivamente con HF / trasformatori per il trader del poder de las últimas ' +
'técnicas di procesamiento de lenguaje natural al idioma español'
}
)
由 Manuel Romero/@mrm8488 創建 | 領英
在西班牙用心打造 ♥
數據集引用
@InProceedings{10.1007/978-3-030-03840-3_29,
author="Croce, Danilo and Zelenanska, Alexandra and Basili, Roberto",
editor="Ghidini, Chiara and Magnini, Bernardo and Passerini, Andrea and Traverso, Paolo",
title="Neural Learning for Question Answering in Italian",
booktitle="AI*IA 2018 -- Advances in Artificial Intelligence",
year="2018",
publisher="Springer International Publishing",
address="Cham",
pages="389--402",
isbn="978-3-030-03840-3"
}