🚀 カタルーニャ語の質問応答用にファインチューニングされたBERTa-v2 (roberta-base-ca-v2)
このモデルは、カタルーニャ語の質問応答タスクに特化しており、roberta-base-ca-v2モデルをベースにファインチューニングされています。特定のデータセットを用いて訓練され、質問応答の精度を向上させています。
🚀 クイックスタート
このモデルを使用するには、以下の手順に従ってください。
from transformers import pipeline
nlp = pipeline("question-answering", model="projecte-aina/roberta-base-ca-v2-cased-qa")
text = "Quan va començar el Super3?"
context = "El Super3 o Club Super3 és un univers infantil català creat a partir d'un programa emès per Televisió de Catalunya des del 1991. Està format per un canal de televisió, la revista Súpers!, la Festa dels Súpers i un club que té un milió i mig de socis."
qa_results = nlp(text, context)
print(qa_results)
✨ 主な機能
- 質問応答:カタルーニャ語の質問に対する回答を抽出することができます。
- 高精度:特定のデータセットで訓練され、高いF1スコアを達成しています。
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import pipeline
nlp = pipeline("question-answering", model="projecte-aina/roberta-base-ca-v2-cased-qa")
text = "Quan va començar el Super3?"
context = "El Super3 o Club Super3 és un univers infantil català creat a partir d'un programa emès per Televisió de Catalunya des del 1991. Està format per un canal de televisió, la revista Súpers!, la Festa dels Súpers i un club que té un milió i mig de socis."
qa_results = nlp(text, context)
print(qa_results)
高度な使用法
高度なシナリオでは、複数の質問や文脈を用いてモデルをテストすることができます。
widget = [
{
"text": "Quan va començar el Super3?",
"context": "El Super3 o Club Super3 és un univers infantil català creat a partir d'un programa emès per Televisió de Catalunya des del 1991. Està format per un canal de televisió, la revista Súpers!, la Festa dels Súpers i un club que té un milió i mig de socis."
},
{
"text": "Quants eren els germans Marx?",
"context": "Els germans Marx van ser un grup de còmics dels Estats Units que originàriament estava compost per cinc germans (entre parèntesis els noms artístics): Leonard (Chico), Adolph (Harpo), Julius (Groucho), Milton (Gummo) i Herbert (Zeppo)."
}
]
for item in widget:
qa_results = nlp(item["text"], item["context"])
print(qa_results)
📚 ドキュメント
モデルの説明
roberta-base-ca-v2-cased-qaは、カタルーニャ語の質問応答(QA)モデルです。このモデルは、roberta-base-ca-v2モデルからファインチューニングされており、RoBERTaベースモデルを使用しています。このベースモデルは、公開されているコーパスやクローラーから収集された中規模のコーパスで事前学習されています。
想定される用途と制限
roberta-base-ca-v2-cased-qaモデルは、抽出型の質問応答に使用できます。ただし、モデルは訓練データセットに制限されており、すべてのユースケースに対してうまく汎化できない可能性があります。
制限とバイアス
提出時点では、モデルに埋め込まれたバイアスを推定するための対策は取られていません。ただし、コーパスが複数のウェブソースからクローリング技術を用いて収集されているため、モデルにバイアスが含まれる可能性があることは十分に認識しています。将来的にこれらの分野で研究を行う予定であり、完了した場合はこのモデルカードを更新します。
訓練
訓練データ
訓練と評価には、カタルーニャ語のQAデータセットであるCatalanQAを使用し、評価にはXQuAD-caのテストセットを使用しました。
訓練手順
モデルは、バッチサイズ16、学習率5e-5で5エポック訓練されました。その後、対応する開発セットの下流タスクメトリックを使用して最良のチェックポイントを選択し、テストセットで評価しました。
評価
変数とメトリック
このモデルは、F1スコアを最大化するようにファインチューニングされました。
評価結果
_roberta-base-ca-v2-cased-qa_をCatalanQAとXQuAD-caのテストセットで、標準的な多言語および単言語のベースラインと比較して評価しました。
モデル |
CatalanQA (F1/EM) |
XQuAD-Ca (F1/EM) |
roberta-base-ca-v2-cased-qa |
89.50/76.63 |
73.64/55.42 |
roberta-base-ca-cased-qa |
89.17/77.14 |
69.20/51.47 |
mBERT |
86.90/74.19 |
68.79/50.80 |
XLM-RoBERTa |
88.17/75.93 |
72.55/54.16 |
詳細については、公式のGitHubリポジトリのファインチューニングと評価スクリプトを確認してください。
追加情報
著者
バルセロナスーパーコンピューティングセンターのテキストマイニングユニット (TeMU) (bsc-temu@bsc.es)
連絡先情報
詳細な情報については、aina@bsc.esにメールを送信してください。
著作権
Copyright (c) 2022 バルセロナスーパーコンピューティングセンターのテキストマイニングユニット
ライセンス情報
Apache License, Version 2.0
資金提供
この研究は、加泰羅尼亞自治政府の副首相兼デジタル政策・地域政策省がProjecte AINAの枠組みの中で資金提供しています。
引用情報
これらのリソース(データセットまたはモデル)をあなたの研究で使用する場合は、最新の論文を引用してください。
@inproceedings{armengol-estape-etal-2021-multilingual,
title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
author = "Armengol-Estap{\'e}, Jordi and
Carrino, Casimiro Pio and
Rodriguez-Penagos, Carlos and
de Gibert Bonet, Ona and
Armentano-Oller, Carme and
Gonzalez-Agirre, Aitor and
Melero, Maite and
Villegas, Marta",
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.findings-acl.437",
doi = "10.18653/v1/2021.findings-acl.437",
pages = "4933--4946",
}
免責事項
このリポジトリに公開されているモデルは、一般的な目的で作成されており、第三者に利用可能です。これらのモデルにはバイアスやその他の望ましくない歪みが含まれる可能性があります。
第三者がこれらのモデル(またはこれらのモデルに基づくシステム)を使用してシステムやサービスを他者に提供する場合、またはモデルのユーザーになる場合、その使用に伴うリスクを軽減する責任は彼ら自身にあり、いかなる場合も、適用される規制、特に人工知能の使用に関する規制を遵守する必要があります。
いかなる場合も、モデルの所有者および作成者(BSC – バルセロナスーパーコンピューティングセンター)は、第三者によるこれらのモデルの使用に起因する結果に対して責任を負いません。
📄 ライセンス
このプロジェクトは、Apache License, Version 2.0の下でライセンスされています。