🚀 スペイン語のRoBERTa-largeモデル:BNEで学習、CAPITEL品詞タグ付けデータセットで微調整
このモデルは、スペイン語の品詞タグ付け(POS)に特化したモデルで、大規模なスペイン語コーパスで事前学習されたRoBERTa-largeモデルを、CAPITEL品詞タグ付けデータセットで微調整したものです。高い精度で品詞タグ付けを行うことができます。
🚀 クイックスタート
モデルの使い方
このモデルを使用するには、以下のコードを参考にしてください。
from transformers import pipeline
from pprint import pprint
nlp = pipeline("token-classification", model="PlanTL-GOB-ES/roberta-large-bne-capitel-pos")
example = "El alcalde de Vigo, Abel Caballero, ha comenzado a colocar las luces de Navidad en agosto."
pos_results = nlp(example)
pprint(pos_results)
✨ 主な機能
- 高精度な品詞タグ付け:スペイン語のテキストに対して高精度な品詞タグ付けを行います。
- 大規模コーパスでの事前学習:570GBのクリーンなスペイン語コーパスで事前学習されています。
- 微調整による最適化:CAPITEL品詞タグ付けデータセットで微調整されているため、特定のタスクに最適化されています。
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
📚 ドキュメント
モデルの説明
roberta-large-bne-capitel-posは、スペイン語の品詞タグ付け(POS)モデルです。roberta-large-bneモデルをベースに、RoBERTaの大規模モデルを使用しています。このモデルは、2009年から2019年までにスペイン国立図書館(Biblioteca Nacional de España)が収集したウェブクローリングデータから作成された、570GBのクリーンで重複のないテキストコーパスで事前学習されています。
想定される用途と制限
このモデルは、スペイン語のテキストに対する品詞タグ付け(POS)に使用できます。ただし、学習データセットによる制限があり、すべてのユースケースに対して汎化性能が高いとは限りません。
制限事項とバイアス
提出時点では、モデルに埋め込まれたバイアスを推定するための措置は取られていません。ただし、コーパスが複数のウェブソースからクローリング技術を使用して収集されているため、モデルにバイアスが含まれる可能性があることは十分に認識しています。将来的にこれらの領域での研究を行う予定であり、完了した場合にはこのモデルカードを更新します。
学習
学習データ
このモデルの学習には、IberLEF 2020のCAPITELコンペティション(サブタスク2)のデータセットが使用されています。
学習手順
モデルは、バッチサイズ16、学習率3e - 5で5エポック学習されました。その後、対応する開発セットでの下流タスクメトリックを使用して最良のチェックポイントを選択し、テストセットで評価しました。
評価
変数とメトリック
このモデルは、F1スコアを最大化するように微調整されています。
評価結果
roberta-large-bne-capitel-posモデルを、CAPITEL - POSテストセットで標準的な多言語および単言語のベースラインと比較して評価しました。
モデル |
CAPITEL - POS (F1) |
roberta-large-bne-capitel-pos |
98.56 |
roberta-base-bne-capitel-pos |
98.46 |
BETO |
98.36 |
mBERT |
98.39 |
BERTIN |
98.47 |
ELECTRA |
98.16 |
詳細については、公式のGitHubリポジトリの微調整および評価スクリプトを確認してください。
追加情報
作成者
バルセロナスーパーコンピューティングセンターのテキストマイニングユニット(TeMU) (bsc - temu@bsc.es)
連絡先情報
詳細な情報については、<plantl - gob - es@bsc.es>にメールを送信してください。
著作権
スペインのデジタル化と人工知能国家事務局(SEDIA)による著作権 (2022)
ライセンス情報
Apache License, Version 2.0
資金提供
この研究は、スペインのデジタル化と人工知能国家事務局(SEDIA)がPlan - TLの枠組みで資金提供しています。
引用情報
このモデルを使用する場合は、以下の論文を引用してください。
@article{,
abstract = {We want to thank the National Library of Spain for such a large effort on the data gathering and the Future of Computing Center, a
Barcelona Supercomputing Center and IBM initiative (2020). This work was funded by the Spanish State Secretariat for Digitalization and Artificial
Intelligence (SEDIA) within the framework of the Plan-TL.},
author = {Asier Gutiérrez Fandiño and Jordi Armengol Estapé and Marc Pàmies and Joan Llop Palao and Joaquin Silveira Ocampo and Casimiro Pio Carrino and Carme Armentano Oller and Carlos Rodriguez Penagos and Aitor Gonzalez Agirre and Marta Villegas},
doi = {10.26342/2022-68-3},
issn = {1135-5948},
journal = {Procesamiento del Lenguaje Natural},
keywords = {Artificial intelligence,Benchmarking,Data processing.,MarIA,Natural language processing,Spanish language modelling,Spanish language resources,Tractament del llenguatge natural (Informàtica),Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural},
publisher = {Sociedad Española para el Procesamiento del Lenguaje Natural},
title = {MarIA: Spanish Language Models},
volume = {68},
url = {https://upcommons.upc.edu/handle/2117/367156#.YyMTB4X9A-0.mendeley},
year = {2022},
}
免責事項
このリポジトリに公開されているモデルは、一般的な目的で作成されており、第三者が利用できます。これらのモデルにはバイアスやその他の望ましくない歪みが含まれる可能性があります。
第三者がこれらのモデルを使用してシステムやサービスを展開または提供する場合、またはモデルのユーザーになる場合、その使用に伴うリスクを軽減する責任があり、いずれの場合も、人工知能の使用に関する規制を含む適用される規制に準拠する必要があります。
いかなる場合も、モデルの所有者(SEDIA - デジタル化と人工知能国家事務局)または作成者(BSC - バルセロナスーパーコンピューティングセンター)は、第三者がこれらのモデルを使用して生じた結果に対して責任を負いません。