🚀 BERT (base-multilingual-cased) 針對多語言問答的微調模型
本模型由 Google 創建,並在類似 XQuAD 的數據集上進行微調,以用於多語言(11 種不同語言
)的問答下游任務。該模型能夠有效解決多語言環境下的問答需求,為不同語言的用戶提供準確的答案。
📚 詳細文檔
語言模型('bert-base-multilingual-cased')詳情
語言模型
語言數量 |
注意力頭數量 |
層數 |
隱藏層維度 |
參數數量 |
104 |
12 |
12 |
768 |
1 億 |
下游任務(多語言問答)詳情 - 數據集
Deepmind XQuAD
涵蓋的語言:
- 阿拉伯語:
ar
- 德語:
de
- 希臘語:
el
- 英語:
en
- 西班牙語:
es
- 印地語:
hi
- 俄語:
ru
- 泰語:
th
- 土耳其語:
tr
- 越南語:
vi
- 中文:
zh
由於該數據集基於 SQuAD v1.1,數據中沒有無法回答的問題。我們選擇這種設置是為了讓模型能夠專注於跨語言遷移。
我們在下表中展示了每種語言每個段落、問題和答案的平均標記數。中文使用 Jieba 進行統計,其他語言使用 Moses 分詞器 進行統計。
|
英語 |
西班牙語 |
德語 |
希臘語 |
俄語 |
土耳其語 |
阿拉伯語 |
越南語 |
泰語 |
中文 |
印地語 |
段落 |
142.4 |
160.7 |
139.5 |
149.6 |
133.9 |
126.5 |
128.2 |
191.2 |
158.7 |
147.6 |
232.4 |
問題 |
11.5 |
13.4 |
11.0 |
11.7 |
10.0 |
9.8 |
10.7 |
14.8 |
11.5 |
10.5 |
18.7 |
答案 |
3.1 |
3.6 |
3.0 |
3.3 |
3.1 |
3.1 |
3.1 |
4.5 |
4.1 |
3.5 |
5.6 |
引用:
@article{Artetxe:etal:2019,
author = {Mikel Artetxe and Sebastian Ruder and Dani Yogatama},
title = {On the cross-lingual transferability of monolingual representations},
journal = {CoRR},
volume = {abs/1910.11856},
year = {2019},
archivePrefix = {arXiv},
eprint = {1910.11856}
}
由於 XQuAD 只是一個評估數據集,我使用了 數據增強技術
(網絡抓取、神經機器翻譯等)來獲取更多樣本,並對數據集進行分割,以得到訓練集和測試集。測試集的創建方式是每種語言包含相同數量的樣本。最後,我得到了:
數據集 |
樣本數量 |
XQUAD 訓練集 |
5 萬個 |
XQUAD 測試集 |
8 千個 |
模型訓練
該模型在 Tesla P100 GPU 和 25GB 內存上進行訓練。
微調腳本可在 此處 找到。
💻 使用示例
基礎用法
使用 pipelines 快速使用:
from transformers import pipeline
qa_pipeline = pipeline(
"question-answering",
model="mrm8488/bert-multi-cased-finetuned-xquadv1",
tokenizer="mrm8488/bert-multi-cased-finetuned-xquadv1"
)
qa_pipeline({
'context': "कोरोनावायरस पश्चिम में आतंक बो रहा है क्योंकि यह इतनी तेजी से फैलता है।",
'question': "कोरोनावायरस घबराहट कहां है?"
})
qa_pipeline({
'context': "Manuel Romero has been working hardly in the repository hugginface/transformers lately",
'question': "Who has been working hard for hugginface/transformers lately?"
})
qa_pipeline({
'context': "Manuel Romero a travaillé à peine dans le référentiel hugginface / transformers ces derniers temps",
'question': "Pour quel référentiel a travaillé Manuel Romero récemment?"
})

你可以在 Colab 中嘗試:

由 Manuel Romero/@mrm8488 創建
在西班牙用心打造