🚀 スペイン語の質問応答コーパス(SQAC)データセットでファインチューニングされた、BNEで学習されたスペイン語RoBERTa-baseモデル
このモデルは、スペイン語の質問応答タスクに特化しており、大規模なスペイン語コーパスで事前学習されたRoBERTaベースモデルを利用しています。
🚀 クイックスタート
このモデルを使用するには、以下の手順に従ってください。
from transformers import pipeline
nlp = pipeline("question-answering", model="PlanTL-GOB-ES/roberta-base-bne-sqac")
text = "¿Dónde vivo?"
context = "Me llamo Wolfgang y vivo en Berlin"
qa_results = nlp(text, context)
print(qa_results)
✨ 主な機能
- スペイン語の抽出型質問応答タスクに対応
- 大規模なスペイン語コーパスで事前学習されたRoBERTaベースモデルを利用
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import pipeline
nlp = pipeline("question-answering", model="PlanTL-GOB-ES/roberta-base-bne-sqac")
text = "¿Dónde vivo?"
context = "Me llamo Wolfgang y vivo en Berlin"
qa_results = nlp(text, context)
print(qa_results)
📚 ドキュメント
モデルの説明
roberta-base-bne-sqacは、スペイン語の質問応答(QA)モデルです。このモデルは、roberta-base-bneモデルからファインチューニングされています。roberta-base-bneは、RoBERTaのベースモデルで、2009年から2019年にかけてスペイン国立図書館(Biblioteca Nacional de España)によるウェブクローリングから収集された、合計570GBのクリーンで重複のないテキストを使用して事前学習されています。
想定される用途と制限
roberta-base-bne-sqacモデルは、抽出型質問応答に使用できます。ただし、モデルは学習データセットに制限されており、すべてのユースケースに対してうまく汎化できない可能性があります。
制限とバイアス
提出時点では、モデルに埋め込まれたバイアスを推定するための対策は取られていません。ただし、複数のウェブソースからクローリング技術を使用してコーパスを収集しているため、モデルにバイアスが含まれる可能性があることは十分に認識しています。将来的にこれらの分野で研究を行う予定であり、完了した場合はこのモデルカードを更新します。
学習
学習データ
学習と評価には、スペイン語のQAデータセットであるSQACコーパスを使用しました。
学習手順
モデルは、バッチサイズ16、学習率5e-5で5エポック学習されました。その後、対応する開発セットでの下流タスクメトリックを使用して最良のチェックポイントを選択し、テストセットで評価しました。
評価結果
roberta-base-bne-sqacをSQACテストセットで、標準的な多言語および単言語のベースラインと比較して評価しました。
モデル |
SQAC (F1) |
roberta-large-bne-sqac |
82.02 |
roberta-base-bne-sqac |
79.23 |
BETO |
79.23 |
mBERT |
75.62 |
BERTIN |
76.78 |
ELECTRA |
73.83 |
詳細については、公式のGitHubリポジトリのファインチューニングと評価スクリプトを確認してください。
追加情報
作者
バルセロナスーパーコンピューティングセンターのテキストマイニングユニット(TeMU) (bsc-temu@bsc.es)
連絡先情報
詳細情報については、plantl-gob-es@bsc.esにメールを送信してください。
著作権
スペイン国のデジタル化と人工知能担当国務省(SEDIA)による著作権 (2022)
ライセンス情報
Apache License, Version 2.0
資金提供
この研究は、スペイン国のデジタル化と人工知能担当国務省(SEDIA)によってPlan-TLの枠組み内で資金提供されています。
引用情報
このモデルを使用する場合は、以下の論文を引用してください。
@article{,
abstract = {We want to thank the National Library of Spain for such a large effort on the data gathering and the Future of Computing Center, a
Barcelona Supercomputing Center and IBM initiative (2020). This work was funded by the Spanish State Secretariat for Digitalization and Artificial
Intelligence (SEDIA) within the framework of the Plan-TL.},
author = {Asier Gutiérrez Fandiño and Jordi Armengol Estapé and Marc Pàmies and Joan Llop Palao and Joaquin Silveira Ocampo and Casimiro Pio Carrino and Carme Armentano Oller and Carlos Rodriguez Penagos and Aitor Gonzalez Agirre and Marta Villegas},
doi = {10.26342/2022-68-3},
issn = {1135-5948},
journal = {Procesamiento del Lenguaje Natural},
keywords = {Artificial intelligence,Benchmarking,Data processing.,MarIA,Natural language processing,Spanish language modelling,Spanish language resources,Tractament del llenguatge natural (Informàtica),Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural},
publisher = {Sociedad Española para el Procesamiento del Lenguaje Natural},
title = {MarIA: Spanish Language Models},
volume = {68},
url = {https://upcommons.upc.edu/handle/2117/367156#.YyMTB4X9A-0.mendeley},
year = {2022},
}
免責事項
このリポジトリに公開されているモデルは、一般的な目的で作成されており、第三者に利用可能です。これらのモデルにはバイアスやその他の望ましくない歪みが含まれる可能性があります。
第三者がこれらのモデル(またはこれらのモデルに基づくシステム)を使用してシステムやサービスを展開または提供する場合、またはモデルのユーザーになる場合、その使用に伴うリスクを軽減し、かつ、人工知能の使用に関する規制を含む適用される規制を遵守することは、その第三者の責任です。
いかなる場合も、モデルの所有者(SEDIA – デジタル化と人工知能担当国務省)および作成者(BSC – バルセロナスーパーコンピューティングセンター)は、第三者によるこれらのモデルの使用に起因する結果について責任を負いません。
🔧 技術詳細
メトリクス
データセット
モデル情報
📄 ライセンス
このモデルは、Apache License, Version 2.0の下でライセンスされています。