🚀 スペイン国立図書館(BNE)のデータで学習させたRoBERTa large
このモデルは、スペイン語用のマスク言語モデルです。RoBERTa largeモデルをベースに、スペイン国立図書館(BNE)のデータを用いて事前学習されています。fill - maskタスクに最適化されています。
🚀 クイックスタート
このセクションでは、モデルの概要、使い方、学習データや評価結果などの基本的な情報を提供します。
✨ 主な機能
- アーキテクチャ:roberta - large
- 言語:スペイン語
- タスク:fill - mask
- データ:BNE
📦 インストール
このモデルはHugging Faceのライブラリを通じて使用できます。以下のようにインストールできます。
pip install transformers
💻 使用例
基本的な使用法
>>> from transformers import pipeline
>>> from pprint import pprint
>>> unmasker = pipeline('fill-mask', model='PlanTL-GOB-ES/roberta-large-bne')
>>> pprint(unmasker("Gracias a los datos de la BNE se ha podido <mask> este modelo del lenguaje."))
[{'score': 0.0664491355419159,
'sequence': ' Gracias a los datos de la BNE se ha podido conocer este modelo del lenguaje.',
'token': 1910,
'token_str': ' conocer'},
{'score': 0.0492338091135025,
'sequence': ' Gracias a los datos de la BNE se ha podido realizar este modelo del lenguaje.',
'token': 2178,
'token_str': ' realizar'},
{'score': 0.03890657424926758,
'sequence': ' Gracias a los datos de la BNE se ha podido reconstruir este modelo del lenguaje.',
'token': 23368,
'token_str': ' reconstruir'},
{'score': 0.03662774711847305,
'sequence': ' Gracias a los datos de la BNE se ha podido desarrollar este modelo del lenguaje.',
'token': 3815,
'token_str': ' desarrollar'},
{'score': 0.030557377263903618,
'sequence': ' Gracias a los datos de la BNE se ha podido estudiar este modelo del lenguaje.',
'token': 6361,
'token_str': ' estudiar'}]
高度な使用法
>>> from transformers import RobertaTokenizer, RobertaModel
>>> tokenizer = RobertaTokenizer.from_pretrained('PlanTL-GOB-ES/roberta-large-bne')
>>> model = RobertaModel.from_pretrained('PlanTL-GOB-ES/roberta-large-bne')
>>> text = "Gracias a los datos de la BNE se ha podido desarrollar este modelo del lenguaje."
>>> encoded_input = tokenizer(text, return_tensors='pt')
>>> output = model(**encoded_input)
>>> print(output.last_hidden_state.shape)
torch.Size([1, 19, 1024])
📚 ドキュメント
モデルの説明
roberta - large - bne は、スペイン語用のトランスフォーマーベースのマスク言語モデルです。RoBERTa largeモデルをベースに、2009年から2019年までにスペイン国立図書館(BNE)が収集したスペイン語コーパスを用いて事前学習されています。
想定される用途と制限
roberta - large - bne モデルは、fill - maskタスクのマスク言語モデリングにのみすぐに使用できます。ただし、質問応答、テキスト分類、固有表現認識などの下流タスクで微調整することを想定しています。
制限とバイアス
提出時点では、モデルに埋め込まれたバイアスと毒性を推定するための対策は取られていません。ただし、コーパスが複数のウェブソースからクローリングされているため、モデルにバイアスが含まれる可能性があることは十分に認識しています。将来的にこれらの分野で研究を行う予定であり、完了した場合、このモデルカードは更新されます。
学習
学習データ
スペイン国立図書館(BNE)は、毎年すべての.esドメインをクロールします。学習コーパスは、2009年から2019年までのこれらのクロールによる59TBのWARCファイルで構成されています。
高品質な学習コーパスを得るために、コーパスは文分割、言語検出、不適切な文のフィルタリング、繰り返し内容の重複排除などの一連の操作で前処理されています。この過程で、ドキュメントの境界は維持されています。これにより、2TBのスペイン語のクリーンなコーパスが得られました。さらに、コーパス全体で重複排除が行われ、570GBのテキストが残りました。
コーパスの統計情報:
コーパス |
ドキュメント数 |
トークン数 |
サイズ (GB) |
BNE |
201,080,084 |
135,733,450,668 |
570GB |
学習手順
学習コーパスは、元のRoBERTAモデルで使用されているByte - Pair Encoding (BPE)のバイトバージョンを使用してトークン化されています。語彙サイズは50,262トークンです。
roberta - large - bne の事前学習は、RoBERTa largeで採用されているアプローチに従ったマスク言語モデルの学習で構成されています。学習は、それぞれ16GB VRAMの4つのNVIDIA V100 GPUを備えた32個のコンピューティングノードで合計96時間行われました。
評価
下流タスクで微調整した場合、このモデルは以下の結果を達成します。
データセット |
評価指標 |
RoBERTa-large |
MLDoc |
F1 |
0.9702 |
CoNLL-NERC |
F1 |
0.8823 |
CAPITEL-NERC |
F1 |
0.9051 |
PAWS-X |
F1 |
0.9150 |
UD-POS |
F1 |
0.9904 |
CAPITEL-POS |
F1 |
0.9856 |
SQAC |
F1 |
0.8202 |
STS |
総合評価 |
0.8411 |
XNLI |
正解率 |
0.8263 |
詳細な評価情報については、GitHubリポジトリまたは論文を参照してください。
追加情報
著者
Barcelona Supercomputing CenterのText Mining Unit (TeMU) (bsc - temu@bsc.es)
連絡先情報
詳細情報については、<plantl - gob - es@bsc.es>にメールを送信してください。
著作権
[スペイン国のデジタル化と人工知能担当国務省(SEDIA)](https://portal.mineco.gob.es/en - us/digitalizacionIA/Pages/sedia.aspx)による著作権 (2022)
ライセンス情報
この作品は、[Apache License, Version 2.0](https://www.apache.org/licenses/LICENSE - 2.0)の下でライセンスされています。
資金提供
この作品は、Plan - TLの枠組み内で[スペイン国のデジタル化と人工知能担当国務省(SEDIA)](https://portal.mineco.gob.es/en - us/digitalizacionIA/Pages/sedia.aspx)から資金提供を受けています。
引用情報
このモデルを使用する場合は、論文を引用してください。
@article{,
abstract = {We want to thank the National Library of Spain for such a large effort on the data gathering and the Future of Computing Center, a
Barcelona Supercomputing Center and IBM initiative (2020). This work was funded by the Spanish State Secretariat for Digitalization and Artificial
Intelligence (SEDIA) within the framework of the Plan-TL.},
author = {Asier Gutiérrez Fandiño and Jordi Armengol Estapé and Marc Pàmies and Joan Llop Palao and Joaquin Silveira Ocampo and Casimiro Pio Carrino and Carme Armentano Oller and Carlos Rodriguez Penagos and Aitor Gonzalez Agirre and Marta Villegas},
doi = {10.26342/2022-68-3},
issn = {1135-5948},
journal = {Procesamiento del Lenguaje Natural},
keywords = {Artificial intelligence,Benchmarking,Data processing.,MarIA,Natural language processing,Spanish language modelling,Spanish language resources,Tractament del llenguatge natural (Informàtica),Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural},
publisher = {Sociedad Española para el Procesamiento del Lenguaje Natural},
title = {MarIA: Spanish Language Models},
volume = {68},
url = {https://upcommons.upc.edu/handle/2117/367156#.YyMTB4X9A-0.mendeley},
year = {2022},
}
免責事項
このリポジトリに公開されているモデルは、一般的な目的で作成されており、第三者に利用可能です。これらのモデルにはバイアスやその他の望ましくない歪みが含まれる可能性があります。
第三者がこれらのモデルのいずれかを使用してシステムやサービスを展開または提供する場合、またはモデルのユーザーになる場合、その使用に伴うリスクを軽減し、いかなる場合も、人工知能の使用に関する規制を含む適用可能な規制を遵守する責任があることに注意する必要があります。
いかなる場合も、モデルの所有者(SEDIA - デジタル化と人工知能担当国務省)または作成者(BSC - Barcelona Supercomputing Center)は、第三者によるこれらのモデルの使用に起因する結果について責任を負いません。