🚀 意大利语BERT在SQuAD_it v1上微调模型
该项目基于 意大利语BERT基础大小写敏感模型,在 意大利语SQuAD 数据集上进行微调,用于问答下游任务。
✨ 主要特性
- 基于意大利语BERT基础模型,适用于意大利语问答场景。
- 在大规模意大利语数据集上进行微调,性能表现出色。
📚 详细文档
意大利语BERT模型详情
意大利语BERT模型的源数据包括近期的维基百科转储和来自OPUS语料库集合的各种文本。最终的训练语料库大小为13GB,包含2,050,057,573个标记。
在句子分割方面,我们使用NLTK(相比spacy更快)。我们的大小写敏感和不敏感模型在初始序列长度为512个子词的情况下训练了约200 - 300万步。
对于XXL意大利语模型,我们使用了来自OPUS的相同训练数据,并扩展了OSCAR语料库意大利部分的数据。因此,最终的训练语料库大小为81GB,包含13,138,379,147个标记。
更多信息请参考其官方 模型卡片。
该模型由 Stefan 在 MDZ 创建。
下游任务(问答)详情 - 数据集 📚 🧐 ❓
意大利语SQuAD v1.1 源自SQuAD数据集,是通过将SQuAD数据集半自动翻译成意大利语而获得的。它代表了一个大规模的意大利语事实问答开放数据集。
该数据集包含超过60,000个问题/答案对,源自原始的英语数据集。数据集被分为训练集和测试集,以支持问答系统基准测试的可重复性:
SQuAD_it-train.json
:包含源自原始SQuAD 1.1训练材料的训练示例。
SQuAD_it-test.json
:包含源自原始SQuAD 1.1开发材料的测试/基准测试示例。
有关SQuAD-it的更多详细信息,请参阅 Croce等人2018年的论文。
模型训练 🏋️
该模型在Tesla P100 GPU和25GB内存上进行训练。
微调脚本可在 此处 找到。
结果 📝
指标 |
值 |
精确匹配率(EM) |
62.51 |
F1分数 |
74.16 |
原始指标
{
"exact": 62.5180707057432,
"f1": 74.16038329042492,
"total": 7609,
"HasAns_exact": 62.5180707057432,
"HasAns_f1": 74.16038329042492,
"HasAns_total": 7609,
"best_exact": 62.5180707057432,
"best_exact_thresh": 0.0,
"best_f1": 74.16038329042492,
"best_f1_thresh": 0.0
}
对比 ⚖️
💻 使用示例
基础用法
使用管道进行快速使用 🧪
from transformers import pipeline
nlp_qa = pipeline(
'question-answering',
model='mrm8488/bert-italian-finedtuned-squadv1-it-alfa',
tokenizer='mrm8488/bert-italian-finedtuned-squadv1-it-alfa'
)
nlp_qa(
{
'question': 'Per quale lingua stai lavorando?',
'context': 'Manuel Romero è colaborando attivamente con HF / trasformatori per il trader del poder de las últimas ' +
'técnicas di procesamiento de lenguaje natural al idioma español'
}
)
由 Manuel Romero/@mrm8488 创建 | 领英
在西班牙用心打造 ♥
数据集引用
@InProceedings{10.1007/978-3-030-03840-3_29,
author="Croce, Danilo and Zelenanska, Alexandra and Basili, Roberto",
editor="Ghidini, Chiara and Magnini, Bernardo and Passerini, Andrea and Traverso, Paolo",
title="Neural Learning for Question Answering in Italian",
booktitle="AI*IA 2018 -- Advances in Artificial Intelligence",
year="2018",
publisher="Springer International Publishing",
address="Cham",
pages="389--402",
isbn="978-3-030-03840-3"
}