🚀 多语言 + 波兰语SQuAD1.1
本模型是谷歌研究团队提供的多语言模型,针对波兰语问答下游任务进行了微调。
📚 详细文档
语言模型详情
语言模型(bert-base-multilingual-cased):
12层,768个隐藏单元,12个注意力头,1.1亿个参数。
该模型在维基百科内容最多的前104种语言的大小写文本上进行训练。
下游任务详情
使用mtranslate
Python模块对SQuAD1.1进行机器翻译。为了找到起始标记,会在相应段落中搜索答案的直接翻译。由于翻译会因上下文不同而有所差异(纯答案中缺少上下文),并非总能在文本中找到答案,从而导致问答示例的丢失。这是数据集中可能出现错误的一个潜在问题。
数据集 |
问答数量 |
SQuAD1.1训练集 |
87.7K |
波兰语SQuAD1.1训练集 |
39.5K |
SQuAD1.1开发集 |
10.6K |
波兰语SQuAD1.1开发集 |
2.6K |
模型基准测试
模型训练
该模型在Tesla V100 GPU上使用以下命令进行训练:
export SQUAD_DIR=path/to/pl_squad
python run_squad.py
--model_type bert
--model_name_or_path bert-base-multilingual-cased
--do_train
--do_eval
--train_file $SQUAD_DIR/pl_squadv1_train_clean.json
--predict_file $SQUAD_DIR/pl_squadv1_dev_clean.json
--num_train_epochs 2
--max_seq_length 384
--doc_stride 128
--save_steps=8000
--output_dir ../../output
--overwrite_cache
--overwrite_output_dir
结果:
{'exact': 60.670731707317074, 'f1': 71.8952193697293, 'total': 2624, 'HasAns_exact': 60.670731707317074, 'HasAns_f1': 71.8952193697293,
'HasAns_total': 2624, 'best_exact': 60.670731707317074, 'best_exact_thresh': 0.0, 'best_f1': 71.8952193697293, 'best_f1_thresh': 0.0}
模型使用示例
基础用法
使用pipelines快速使用模型:
from transformers import pipeline
qa_pipeline = pipeline(
"question-answering",
model="henryk/bert-base-multilingual-cased-finetuned-polish-squad1",
tokenizer="henryk/bert-base-multilingual-cased-finetuned-polish-squad1"
)
qa_pipeline({
'context': "Warszawa jest największym miastem w Polsce pod względem liczby ludności i powierzchni",
'question': "Jakie jest największe miasto w Polsce?"})
输出示例
{
"score": 0.9988,
"start": 0,
"end": 8,
"answer": "Warszawa"
}
📞 联系我们
如果您想讨论或获取波兰语版SQuAD,请随时通过领英与我联系。