🚀 スペイン語の質問応答コーパス(SQAC)データセットで微調整された、BNEで学習されたスペイン語RoBERTa-largeモデル
このモデルは、スペイン語の質問応答タスクに特化しており、BNEのデータを用いて事前学習されたRoBERTa-largeモデルを、SQACデータセットで微調整したものです。
🚀 クイックスタート
このモデルは、スペイン語の質問応答タスクに使用できます。以下のコード例を参考に、モデルを使ってみましょう。
from transformers import pipeline
nlp = pipeline("question-answering", model="PlanTL-GOB-ES/roberta-large-bne-sqac")
text = "¿Dónde vivo?"
context = "Me llamo Wolfgang y vivo en Berlin"
qa_results = nlp(text, context)
print(qa_results)
✨ 主な機能
- スペイン語の質問応答タスクに特化したモデルです。
- RoBERTa-largeモデルをベースに、SQACデータセットで微調整されています。
📦 インストール
このモデルはHugging FaceのTransformersライブラリを通じて利用できます。以下のコマンドでライブラリをインストールします。
pip install transformers
💻 使用例
基本的な使用法
from transformers import pipeline
nlp = pipeline("question-answering", model="PlanTL-GOB-ES/roberta-large-bne-sqac")
text = "¿Dónde vivo?"
context = "Me llamo Wolfgang y vivo en Berlin"
qa_results = nlp(text, context)
print(qa_results)
📚 ドキュメント
モデルの説明
roberta-large-bne-sqac は、スペイン語の質問応答(QA)モデルです。このモデルは、roberta-large-bne モデルをベースに、RoBERTa の大規模モデルを、2009年から2019年にかけて スペイン国立図書館(Biblioteca Nacional de España) が収集した、合計570GBのクリーンで重複排除されたテキストを用いて事前学習し、その後SQACデータセットで微調整したものです。
想定される用途と制限
roberta-large-bne-sqac モデルは、抽出型の質問応答タスクに使用できます。ただし、モデルは学習データセットに制限されており、すべてのユースケースに対して汎化性能が高いとは限りません。
制限とバイアス
提出時点では、モデルに埋め込まれたバイアスを推定するための対策は取られていません。ただし、コーパスが複数のウェブソースからクローリング技術を用いて収集されているため、モデルにバイアスが含まれる可能性があることは十分に認識しています。将来的にこれらの分野での研究を行う予定であり、研究が完了した場合は、このモデルカードを更新します。
学習
学習データ
学習と評価には、スペイン語のQAデータセットである SQACコーパス を使用しました。
学習手順
モデルは、バッチサイズ16、学習率1e-5で5エポック学習されました。その後、対応する開発セットでの下流タスクメトリックを使用して最良のチェックポイントを選択し、テストセットで評価しました。
評価結果
roberta-large-bne-sqac をSQACテストセットで、標準的な多言語および単言語のベースラインと比較して評価しました。
モデル |
SQAC (F1) |
roberta-large-bne-sqac |
82.02 |
roberta-base-bne-sqac |
79.23 |
BETO |
79.23 |
mBERT |
75.62 |
BERTIN |
76.78 |
ELECTRA |
73.83 |
詳細については、公式の GitHubリポジトリ の微調整と評価スクリプトを確認してください。
追加情報
作者
バルセロナスーパーコンピューティングセンターのテキストマイニングユニット(TeMU) (bsc-temu@bsc.es)
連絡先情報
詳細な情報については、plantl-gob-es@bsc.es までメールを送信してください。
著作権
スペインのデジタル化と人工知能に関する国家事務局(SEDIA)による著作権 (2022)
ライセンス情報
Apache License, Version 2.0
資金提供
この研究は、スペインのデジタル化と人工知能に関する国家事務局(SEDIA)がPlan-TLの枠組みの下で資金提供しています。
引用情報
このモデルを使用する場合は、以下の 論文 を引用してください。
@article{,
abstract = {We want to thank the National Library of Spain for such a large effort on the data gathering and the Future of Computing Center, a
Barcelona Supercomputing Center and IBM initiative (2020). This work was funded by the Spanish State Secretariat for Digitalization and Artificial
Intelligence (SEDIA) within the framework of the Plan-TL.},
author = {Asier Gutiérrez Fandiño and Jordi Armengol Estapé and Marc Pàmies and Joan Llop Palao and Joaquin Silveira Ocampo and Casimiro Pio Carrino and Carme Armentano Oller and Carlos Rodriguez Penagos and Aitor Gonzalez Agirre and Marta Villegas},
doi = {10.26342/2022-68-3},
issn = {1135-5948},
journal = {Procesamiento del Lenguaje Natural},
keywords = {Artificial intelligence,Benchmarking,Data processing.,MarIA,Natural language processing,Spanish language modelling,Spanish language resources,Tractament del llenguatge natural (Informàtica),Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural},
publisher = {Sociedad Española para el Procesamiento del Lenguaje Natural},
title = {MarIA: Spanish Language Models},
volume = {68},
url = {https://upcommons.upc.edu/handle/2117/367156#.YyMTB4X9A-0.mendeley},
year = {2022},
}
免責事項
このリポジトリに公開されているモデルは、一般的な目的で作成されており、第三者に利用可能です。これらのモデルにはバイアスやその他の望ましくない歪みが含まれる可能性があります。
第三者がこれらのモデルを使用してシステムやサービスを展開または提供する場合、またはこれらのモデルのユーザーになる場合、その使用に伴うリスクを軽減する責任は第三者自身にあり、いずれの場合も、人工知能の使用に関する規制を含む適用される規制に準拠する必要があります。
いかなる場合も、モデルの所有者(SEDIA – デジタル化と人工知能に関する国家事務局)および作成者(BSC – バルセロナスーパーコンピューティングセンター)は、第三者によるこれらのモデルの使用に起因する結果について責任を負いません。
🔧 技術詳細
プロパティ |
詳細 |
モデルタイプ |
質問応答モデル |
学習データ |
PlanTL-GOB-ES/SQAC |
評価指標 |
F1、正確一致 |