🚀 イタリア語BERTをSQuAD_it v1でファインチューニングしたモデル
このプロジェクトは、イタリア語BERTベースの大文字小文字を区別するモデル をベースに、イタリア語SQuAD データセットでファインチューニングし、質問応答 という下流タスクに使用します。
✨ 主な機能
- イタリア語BERTベースモデルを使用しており、イタリア語の質問応答シナリオに適しています。
- 大規模なイタリア語データセットでファインチューニングされており、性能が優れています。
📚 ドキュメント
イタリア語BERTモデルの詳細
イタリア語BERTモデルのソースデータには、最近のウィキペディアのダンプとOPUSコーパスセットからの様々なテキストが含まれています。最終的な学習コーパスのサイズは13GBで、2,050,057,573個のトークンが含まれています。
文分割には、NLTK(spacyより高速)を使用しています。大文字小文字を区別するモデルと区別しないモデルは、初期シーケンス長が512サブワードの状態で約200 - 300万ステップ学習されました。
XXLイタリア語モデルでは、OPUSからの同じ学習データを使用し、OSCARコーパスのイタリア部分のデータを拡張しています。そのため、最終的な学習コーパスのサイズは81GBで、13,138,379,147個のトークンが含まれています。
詳細は、公式の モデルカード を参照してください。
このモデルは Stefan によって MDZ で作成されました。
下流タスク(質問応答)の詳細 - データセット 📚 🧐 ❓
イタリア語SQuAD v1.1 はSQuADデータセットに由来し、SQuADデータセットを半自動的にイタリア語に翻訳することで得られました。これは大規模なイタリア語の事実質問応答のオープンデータセットを表しています。
このデータセットには、元の英語データセットから派生した60,000以上の質問/回答ペアが含まれています。データセットは訓練セットとテストセットに分割されており、質問応答システムのベンチマークテストの再現性をサポートします。
SQuAD_it-train.json
:元のSQuAD 1.1の訓練材料に由来する訓練例が含まれています。
SQuAD_it-test.json
:元のSQuAD 1.1の開発材料に由来するテスト/ベンチマーク例が含まれています。
SQuAD-itの詳細については、Croceら2018年の論文 を参照してください。
モデルの学習 🏋️
このモデルは、Tesla P100 GPUと25GBのメモリで学習されました。
ファインチューニングスクリプトは こちら で確認できます。
結果 📝
指標 |
値 |
正確一致率(EM) |
62.51 |
F1スコア |
74.16 |
元の指標
{
"exact": 62.5180707057432,
"f1": 74.16038329042492,
"total": 7609,
"HasAns_exact": 62.5180707057432,
"HasAns_f1": 74.16038329042492,
"HasAns_total": 7609,
"best_exact": 62.5180707057432,
"best_exact_thresh": 0.0,
"best_f1": 74.16038329042492,
"best_f1_thresh": 0.0
}
比較 ⚖️
💻 使用例
基本的な使用法
パイプライン を使用してすぐに使えます 🧪
from transformers import pipeline
nlp_qa = pipeline(
'question-answering',
model='mrm8488/bert-italian-finedtuned-squadv1-it-alfa',
tokenizer='mrm8488/bert-italian-finedtuned-squadv1-it-alfa'
)
nlp_qa(
{
'question': 'Per quale lingua stai lavorando?',
'context': 'Manuel Romero è colaborando attivamente con HF / trasformatori per il trader del poder de las últimas ' +
'técnicas di procesamiento de lenguaje natural al idioma español'
}
)
Manuel Romero/@mrm8488 によって作成 | LinkedIn
スペインで愛を込めて作られました ♥
データセットの引用
@InProceedings{10.1007/978-3-030-03840-3_29,
author="Croce, Danilo and Zelenanska, Alexandra and Basili, Roberto",
editor="Ghidini, Chiara and Magnini, Bernardo and Passerini, Andrea and Traverso, Paolo",
title="Neural Learning for Question Answering in Italian",
booktitle="AI*IA 2018 -- Advances in Artificial Intelligence",
year="2018",
publisher="Springer International Publishing",
address="Cham",
pages="389--402",
isbn="978-3-030-03840-3"
}