roberta-large-bneオープンソーススペイン語言語モデル - BNEデータに基づくトレーニング実用ツール

ホーム

Roberta Large Bne

PlanTL-GOB-ESによって開発

スペイン国立図書館(BNE)のデータを基に学習されたRoBERTaの大型スペイン語言語モデル

大規模言語モデル

Transformers

スペイン語オープンソースライセンス:Apache-2.0 #スペイン語の事前学習 #大規模コーパスによる学習 #マスク言語モデリング

ダウンロード数 1,685

リリース時間 : 3/2/2022

モデル概要

Transformerアーキテクチャに基づくスペイン語のマスク言語モデルで、RoBERTaの大型アーキテクチャを使用し、570GBのクリーンなスペイン語コーパスで学習されました。

モデル特徴

大規模なスペイン語の事前学習

スペイン国立図書館の2009 - 2019年間の570GBのクリーンで重複のないテキストを使用して学習

RoBERTaの最適化アーキテクチャ

RoBERTa - largeアーキテクチャを採用し、スペイン語に合わせて最適化されています。

多タスク適用性

質問応答、テキスト分類など、さまざまな下流のNLPタスクの微調整をサポートします。

モデル能力

マスク言語モデリング

テキスト特徴抽出

固有表現認識

テキスト分類

質問応答システム

使用事例

自然言語処理

テキスト分類

スペイン語のテキストを分類するタスク

MLDocデータセットでF1スコア0.9702

固有表現認識

スペイン語のテキスト中の固有表現を識別する

CoNLL - NERCデータセットでF1スコア0.8823

意味理解

意味類似度計算

スペイン語の文間の意味類似度を計算する

STSデータセットで総合スコア0.8411

🚀 スペイン国立図書館(BNE)のデータで学習させたRoBERTa large

このモデルは、スペイン語用のマスク言語モデルです。RoBERTa largeモデルをベースに、スペイン国立図書館(BNE)のデータを用いて事前学習されています。fill - maskタスクに最適化されています。

🚀 クイックスタート

このセクションでは、モデルの概要、使い方、学習データや評価結果などの基本的な情報を提供します。

✨ 主な機能

アーキテクチャ：roberta - large
言語：スペイン語
タスク：fill - mask
データ：BNE

📦 インストール

このモデルはHugging Faceのライブラリを通じて使用できます。以下のようにインストールできます。

pip install transformers

💻 使用例

基本的な使用法

>>> from transformers import pipeline
>>> from pprint import pprint
>>> unmasker = pipeline('fill-mask', model='PlanTL-GOB-ES/roberta-large-bne')
>>> pprint(unmasker("Gracias a los datos de la BNE se ha podido <mask> este modelo del lenguaje."))
[{'score': 0.0664491355419159,
  'sequence': ' Gracias a los datos de la BNE se ha podido conocer este modelo del lenguaje.',
  'token': 1910,
  'token_str': ' conocer'},
 {'score': 0.0492338091135025,
  'sequence': ' Gracias a los datos de la BNE se ha podido realizar este modelo del lenguaje.',
  'token': 2178,
  'token_str': ' realizar'},
 {'score': 0.03890657424926758,
  'sequence': ' Gracias a los datos de la BNE se ha podido reconstruir este modelo del lenguaje.',
  'token': 23368,
  'token_str': ' reconstruir'},
 {'score': 0.03662774711847305,
  'sequence': ' Gracias a los datos de la BNE se ha podido desarrollar este modelo del lenguaje.',
  'token': 3815,
  'token_str': ' desarrollar'},
 {'score': 0.030557377263903618,
  'sequence': ' Gracias a los datos de la BNE se ha podido estudiar este modelo del lenguaje.',
  'token': 6361,
  'token_str': ' estudiar'}]

高度な使用法

>>> from transformers import RobertaTokenizer, RobertaModel
>>> tokenizer = RobertaTokenizer.from_pretrained('PlanTL-GOB-ES/roberta-large-bne')
>>> model = RobertaModel.from_pretrained('PlanTL-GOB-ES/roberta-large-bne')
>>> text = "Gracias a los datos de la BNE se ha podido desarrollar este modelo del lenguaje."
>>> encoded_input = tokenizer(text, return_tensors='pt')
>>> output = model(**encoded_input)
>>> print(output.last_hidden_state.shape)
torch.Size([1, 19, 1024])

📚 ドキュメント

モデルの説明

roberta - large - bne は、スペイン語用のトランスフォーマーベースのマスク言語モデルです。RoBERTa largeモデルをベースに、2009年から2019年までにスペイン国立図書館(BNE)が収集したスペイン語コーパスを用いて事前学習されています。

想定される用途と制限

roberta - large - bne モデルは、fill - maskタスクのマスク言語モデリングにのみすぐに使用できます。ただし、質問応答、テキスト分類、固有表現認識などの下流タスクで微調整することを想定しています。

制限とバイアス

提出時点では、モデルに埋め込まれたバイアスと毒性を推定するための対策は取られていません。ただし、コーパスが複数のウェブソースからクローリングされているため、モデルにバイアスが含まれる可能性があることは十分に認識しています。将来的にこれらの分野で研究を行う予定であり、完了した場合、このモデルカードは更新されます。

学習

学習データ

スペイン国立図書館(BNE)は、毎年すべての.esドメインをクロールします。学習コーパスは、2009年から2019年までのこれらのクロールによる59TBのWARCファイルで構成されています。

高品質な学習コーパスを得るために、コーパスは文分割、言語検出、不適切な文のフィルタリング、繰り返し内容の重複排除などの一連の操作で前処理されています。この過程で、ドキュメントの境界は維持されています。これにより、2TBのスペイン語のクリーンなコーパスが得られました。さらに、コーパス全体で重複排除が行われ、570GBのテキストが残りました。

コーパスの統計情報：

コーパス	ドキュメント数	トークン数	サイズ (GB)
BNE	201,080,084	135,733,450,668	570GB

学習手順

学習コーパスは、元のRoBERTAモデルで使用されているByte - Pair Encoding (BPE)のバイトバージョンを使用してトークン化されています。語彙サイズは50,262トークンです。

roberta - large - bne の事前学習は、RoBERTa largeで採用されているアプローチに従ったマスク言語モデルの学習で構成されています。学習は、それぞれ16GB VRAMの4つのNVIDIA V100 GPUを備えた32個のコンピューティングノードで合計96時間行われました。

評価

下流タスクで微調整した場合、このモデルは以下の結果を達成します。

データセット	評価指標	RoBERTa-large
MLDoc	F1	0.9702
CoNLL-NERC	F1	0.8823
CAPITEL-NERC	F1	0.9051
PAWS-X	F1	0.9150
UD-POS	F1	0.9904
CAPITEL-POS	F1	0.9856
SQAC	F1	0.8202
STS	総合評価	0.8411
XNLI	正解率	0.8263

詳細な評価情報については、GitHubリポジトリまたは論文を参照してください。

追加情報

著者

Barcelona Supercomputing CenterのText Mining Unit (TeMU) (bsc - temu@bsc.es)

連絡先情報

詳細情報については、<plantl - gob - es@bsc.es>にメールを送信してください。

著作権

[スペイン国のデジタル化と人工知能担当国務省(SEDIA)](https://portal.mineco.gob.es/en - us/digitalizacionIA/Pages/sedia.aspx)による著作権 (2022)

ライセンス情報

この作品は、[Apache License, Version 2.0](https://www.apache.org/licenses/LICENSE - 2.0)の下でライセンスされています。

資金提供

この作品は、Plan - TLの枠組み内で[スペイン国のデジタル化と人工知能担当国務省(SEDIA)](https://portal.mineco.gob.es/en - us/digitalizacionIA/Pages/sedia.aspx)から資金提供を受けています。

引用情報

このモデルを使用する場合は、論文を引用してください。

@article{,
   abstract = {We want to thank the National Library of Spain for such a large effort on the data gathering and the Future of Computing Center, a
Barcelona Supercomputing Center and IBM initiative (2020). This work was funded by the Spanish State Secretariat for Digitalization and Artificial
Intelligence (SEDIA) within the framework of the Plan-TL.},
   author = {Asier Gutiérrez Fandiño and Jordi Armengol Estapé and Marc Pàmies and Joan Llop Palao and Joaquin Silveira Ocampo and Casimiro Pio Carrino and Carme Armentano Oller and Carlos Rodriguez Penagos and Aitor Gonzalez Agirre and Marta Villegas},
   doi = {10.26342/2022-68-3},
   issn = {1135-5948},
   journal = {Procesamiento del Lenguaje Natural},
   keywords = {Artificial intelligence,Benchmarking,Data processing.,MarIA,Natural language processing,Spanish language modelling,Spanish language resources,Tractament del llenguatge natural (Informàtica),Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural},
   publisher = {Sociedad Española para el Procesamiento del Lenguaje Natural},
   title = {MarIA: Spanish Language Models},
   volume = {68},
   url = {https://upcommons.upc.edu/handle/2117/367156#.YyMTB4X9A-0.mendeley},
   year = {2022},
}