🚀 BERT (base-multilingual-cased) 多言語Q&A用にファインチューニングされたモデル
このモデルはGoogleによって作成され、XQuADのようなデータを使用して、多言語(11種類の異なる言語
)のQ&A下流タスクに対してファインチューニングされました。
📚 言語モデル('bert-base-multilingual-cased')の詳細
言語モデル
言語数 |
ヘッド数 |
レイヤー数 |
隠れ層サイズ |
パラメータ数 |
104 |
12 |
12 |
768 |
100 M |
📊 下流タスク(多言語Q&A) - データセットの詳細
DeepmindのXQuAD
対象言語:
- アラビア語:
ar
- ドイツ語:
de
- ギリシャ語:
el
- 英語:
en
- スペイン語:
es
- ヒンディー語:
hi
- ロシア語:
ru
- タイ語:
th
- トルコ語:
tr
- ベトナム語:
vi
- 中国語:
zh
このデータセットはSQuAD v1.1に基づいているため、データには回答不能な質問はありません。この設定を選んだのは、モデルがクロスリンガルな転移学習に集中できるようにするためです。
以下の表に、各言語の段落、質問、回答あたりの平均トークン数を示します。統計は、中国語にはJiebaを、その他の言語にはMosesトークナイザーを使用して取得しました。
|
en |
es |
de |
el |
ru |
tr |
ar |
vi |
th |
zh |
hi |
段落 |
142.4 |
160.7 |
139.5 |
149.6 |
133.9 |
126.5 |
128.2 |
191.2 |
158.7 |
147.6 |
232.4 |
質問 |
11.5 |
13.4 |
11.0 |
11.7 |
10.0 |
9.8 |
10.7 |
14.8 |
11.5 |
10.5 |
18.7 |
回答 |
3.1 |
3.6 |
3.0 |
3.3 |
3.1 |
3.1 |
3.1 |
4.5 |
4.1 |
3.5 |
5.6 |
引用:
@article{Artetxe:etal:2019,
author = {Mikel Artetxe and Sebastian Ruder and Dani Yogatama},
title = {On the cross-lingual transferability of monolingual representations},
journal = {CoRR},
volume = {abs/1910.11856},
year = {2019},
archivePrefix = {arXiv},
eprint = {1910.11856}
}
XQuADは評価用のデータセットに過ぎないため、データ拡張技術
(スクレイピング、ニューラル機械翻訳など)を使用してより多くのサンプルを取得し、データセットを分割して訓練セットとテストセットを作成しました。テストセットは、各言語のサンプル数が同じになるように作成されました。最終的に、以下のようなサンプル数を得ました。
データセット |
サンプル数 |
XQUAD訓練セット |
50 K |
XQUADテストセット |
8 K |
🔧 モデルの訓練
このモデルは、Tesla P100 GPUと25GBのRAMを使用して訓練されました。
ファインチューニング用のスクリプトはこちらで確認できます。
💻 モデルの実行例
パイプラインを使用した高速な使い方:
from transformers import pipeline
qa_pipeline = pipeline(
"question-answering",
model="mrm8488/bert-multi-cased-finetuned-xquadv1",
tokenizer="mrm8488/bert-multi-cased-finetuned-xquadv1"
)
qa_pipeline({
'context': "कोरोनावायरस पश्चिम में आतंक बो रहा है क्योंकि यह इतनी तेजी से फैलता है।",
'question': "कोरोनावायरस घबराहट कहां है?"
})
qa_pipeline({
'context': "Manuel Romero has been working hardly in the repository hugginface/transformers lately",
'question': "Who has been working hard for hugginface/transformers lately?"
})
qa_pipeline({
'context': "Manuel Romero a travaillé à peine dans le référentiel hugginface / transformers ces derniers temps",
'question': "Pour quel référentiel a travaillé Manuel Romero récemment?"
})

Colabで試してみる:

作成者: Manuel Romero/@mrm8488
スペインで❤️を込めて作成されました