🚀 マルチリンガル + ポーランド語SQuAD2.0
このモデルは、Googleの研究チームによって提供されるマルチリンガルモデルで、ポーランド語の質問応答という下流タスクで微調整されています。
📚 言語モデルの詳細
言語モデル (bert-base-multilingual-cased):
12層、768ユニットの隠れ層、12個のヘッド、1億1000万個のパラメータ。
Wikipediaの規模が最も大きい上位104言語の大文字小文字を区別するテキストで学習されています。
📊 下流タスクの詳細
Pythonのmtranslate
モジュールを使用して、SQuAD2.0を機械翻訳しました。開始トークンを見つけるために、回答の直接翻訳を対応する段落で検索しました。文脈によって翻訳が異なるため(純粋な回答には文脈が欠けている)、回答がテキスト内に必ずしも見つからず、質問応答の例が失われることがあります。これは、データセットにエラーが発生する潜在的な問題です。
データセット |
Q&A数 |
SQuAD2.0 トレーニング |
130 K |
ポーランド語SQuAD2.0 トレーニング |
83.1 K |
SQuAD2.0 開発 |
12 K |
ポーランド語SQuAD2.0 開発 |
8.5 K |
📈 モデルのベンチマーク
モデル |
EM/F1 |
回答あり (EM/F1) |
回答なし |
SlavicBERT |
69.35/71.51 |
47.02/54.09 |
79.20 |
polBERT |
67.33/69.80 |
45.73/53.80 |
76.87 |
multiBERT |
70.76/72.92 |
45.00/52.04 |
82.13 |
🔧 モデルの学習
このモデルは、Tesla V100 GPU上で以下のコマンドを使用して学習されました。
export SQUAD_DIR=path/to/pl_squad
python run_squad.py
--model_type bert \
--model_name_or_path bert-base-multilingual-cased \
--do_train \
--do_eval \
--version_2_with_negative \
--train_file $SQUAD_DIR/pl_squadv2_train.json \
--predict_file $SQUAD_DIR/pl_squadv2_dev.json \
--num_train_epochs 2 \
--max_seq_length 384 \
--doc_stride 128 \
--save_steps=8000 \
--output_dir ../../output \
--overwrite_cache \
--overwrite_output_dir
結果:
{'exact': 70.76671723655035, 'f1': 72.92156947155917, 'total': 8569, 'HasAns_exact': 45.00762195121951, 'HasAns_f1': 52.04456128116991, 'HasAns_total': 2624, 'NoAns_exact': 82.13624894869638, '
NoAns_f1': 82.13624894869638, 'NoAns_total': 5945, 'best_exact': 71.72365503559342, 'best_exact_thresh': 0.0, 'best_f1': 73.62662512059369, 'best_f1_thresh': 0.0}
💻 使用例
基本的な使用法
パイプラインを使用した高速な使い方:
from transformers import pipeline
qa_pipeline = pipeline(
"question-answering",
model="henryk/bert-base-multilingual-cased-finetuned-polish-squad2",
tokenizer="henryk/bert-base-multilingual-cased-finetuned-polish-squad2"
)
qa_pipeline({
'context': "Warszawa jest największym miastem w Polsce pod względem liczby ludności i powierzchni",
'question': "Jakie jest największe miasto w Polsce?"})
出力
{
"score": 0.9986,
"start": 0,
"end": 8,
"answer": "Warszawa"
}
📞 お問い合わせ
ポーランド語版のSQuADについて議論したい場合やアクセスしたい場合は、LinkedIn を通じてお問い合わせください。