🚀 BERT (base-multilingual-cased) 针对多语言问答的微调模型
本模型由 Google 创建,并在类似 XQuAD 的数据集上进行微调,以用于多语言(11 种不同语言
)的问答下游任务。该模型能够有效解决多语言环境下的问答需求,为不同语言的用户提供准确的答案。
📚 详细文档
语言模型('bert-base-multilingual-cased')详情
语言模型
语言数量 |
注意力头数量 |
层数 |
隐藏层维度 |
参数数量 |
104 |
12 |
12 |
768 |
1 亿 |
下游任务(多语言问答)详情 - 数据集
Deepmind XQuAD
涵盖的语言:
- 阿拉伯语:
ar
- 德语:
de
- 希腊语:
el
- 英语:
en
- 西班牙语:
es
- 印地语:
hi
- 俄语:
ru
- 泰语:
th
- 土耳其语:
tr
- 越南语:
vi
- 中文:
zh
由于该数据集基于 SQuAD v1.1,数据中没有无法回答的问题。我们选择这种设置是为了让模型能够专注于跨语言迁移。
我们在下表中展示了每种语言每个段落、问题和答案的平均标记数。中文使用 Jieba 进行统计,其他语言使用 Moses 分词器 进行统计。
|
英语 |
西班牙语 |
德语 |
希腊语 |
俄语 |
土耳其语 |
阿拉伯语 |
越南语 |
泰语 |
中文 |
印地语 |
段落 |
142.4 |
160.7 |
139.5 |
149.6 |
133.9 |
126.5 |
128.2 |
191.2 |
158.7 |
147.6 |
232.4 |
问题 |
11.5 |
13.4 |
11.0 |
11.7 |
10.0 |
9.8 |
10.7 |
14.8 |
11.5 |
10.5 |
18.7 |
答案 |
3.1 |
3.6 |
3.0 |
3.3 |
3.1 |
3.1 |
3.1 |
4.5 |
4.1 |
3.5 |
5.6 |
引用:
@article{Artetxe:etal:2019,
author = {Mikel Artetxe and Sebastian Ruder and Dani Yogatama},
title = {On the cross-lingual transferability of monolingual representations},
journal = {CoRR},
volume = {abs/1910.11856},
year = {2019},
archivePrefix = {arXiv},
eprint = {1910.11856}
}
由于 XQuAD 只是一个评估数据集,我使用了 数据增强技术
(网络抓取、神经机器翻译等)来获取更多样本,并对数据集进行分割,以得到训练集和测试集。测试集的创建方式是每种语言包含相同数量的样本。最后,我得到了:
数据集 |
样本数量 |
XQUAD 训练集 |
5 万个 |
XQUAD 测试集 |
8 千个 |
模型训练
该模型在 Tesla P100 GPU 和 25GB 内存上进行训练。
微调脚本可在 此处 找到。
💻 使用示例
基础用法
使用 pipelines 快速使用:
from transformers import pipeline
qa_pipeline = pipeline(
"question-answering",
model="mrm8488/bert-multi-cased-finetuned-xquadv1",
tokenizer="mrm8488/bert-multi-cased-finetuned-xquadv1"
)
qa_pipeline({
'context': "कोरोनावायरस पश्चिम में आतंक बो रहा है क्योंकि यह इतनी तेजी से फैलता है।",
'question': "कोरोनावायरस घबराहट कहां है?"
})
qa_pipeline({
'context': "Manuel Romero has been working hardly in the repository hugginface/transformers lately",
'question': "Who has been working hard for hugginface/transformers lately?"
})
qa_pipeline({
'context': "Manuel Romero a travaillé à peine dans le référentiel hugginface / transformers ces derniers temps",
'question': "Pour quel référentiel a travaillé Manuel Romero récemment?"
})

你可以在 Colab 中尝试:

由 Manuel Romero/@mrm8488 创建
在西班牙用心打造