🚀 スペイン語のRoBERTa-largeをBNEで学習し、CAPITELの固有表現認識(NER)データセット用に微調整したモデル
このモデルは、スペイン語の固有表現認識(NER)に特化しており、大規模なスペイン語コーパスで事前学習されたRoBERTa-largeモデルを、CAPITELデータセットで微調整しています。
🚀 クイックスタート
モデルの説明
roberta-large-bne-capitel-ner は、スペイン語の固有表現認識(NER)モデルです。このモデルは、roberta-large-bne モデルから微調整されており、このモデルは RoBERTa の大規模モデルで、2009年から2019年にかけて スペイン国立図書館(Biblioteca Nacional de España) が収集した最大570GBのクリーンで重複のないテキストを用いて事前学習されています。
想定される用途と制限
roberta-large-bne-capitel-ner モデルは、固有表現(NE)を認識するために使用できます。ただし、このモデルは学習データセットに制限されており、すべての使用ケースに対してうまく汎化できない可能性があります。
使い方
from transformers import pipeline
from pprint import pprint
nlp = pipeline("ner", model="PlanTL-GOB-ES/roberta-large-bne-capitel-ner")
example = "Me llamo Francisco Javier y vivo en Madrid."
ner_results = nlp(example)
pprint(ner_results)
制限とバイアス
提出時点では、モデルに埋め込まれたバイアスを推定するための対策は取られていません。ただし、複数のウェブソースからのクローリング技術を用いてコーパスが収集されているため、当社のモデルにはバイアスが存在する可能性があることを十分に認識しています。将来的にこれらの分野での研究を行う予定であり、研究が完了した場合、このモデルカードは更新されます。
学習
使用されたデータセットは、IberLEF 2020のCAPITELコンペティション (サブタスク1)のものです。
学習手順
モデルは、バッチサイズ32、学習率3e-5で5エポック学習されました。その後、対応する開発セットの下流タスクメトリックを使用して最良のチェックポイントを選択し、テストセットで評価しました。
評価
変数とメトリック
このモデルは、F1スコアを最大化するように微調整されました。
評価結果
roberta-large-bne-capitel-ner をCAPITEL-NERCテストセットで、標準的な多言語および単言語のベースラインと比較して評価しました。
モデル |
CAPITEL-NERC (F1) |
roberta-large-bne-capitel-ner |
90.51 |
roberta-base-bne-capitel-ner |
89.60 |
BETO |
87.72 |
mBERT |
88.10 |
BERTIN |
88.56 |
ELECTRA |
80.35 |
詳細については、公式の GitHubリポジトリ の微調整および評価スクリプトを確認してください。
追加情報
作成者
バルセロナスーパーコンピューティングセンターのテキストマイニングユニット(TeMU) (bsc-temu@bsc.es)
連絡先情報
詳細情報については、plantl-gob-es@bsc.es にメールを送信してください。
著作権
スペインのデジタル化と人工知能国家事務局(SEDIA)による著作権 (2022)
ライセンス情報
Apache License, Version 2.0
資金提供
この研究は、Plan-TLの枠組みの下で、スペインのデジタル化と人工知能国家事務局(SEDIA)によって資金提供されました。
引用情報
このモデルを使用する場合は、以下の論文を引用してください。
@article{,
abstract = {We want to thank the National Library of Spain for such a large effort on the data gathering and the Future of Computing Center, a
Barcelona Supercomputing Center and IBM initiative (2020). This work was funded by the Spanish State Secretariat for Digitalization and Artificial
Intelligence (SEDIA) within the framework of the Plan-TL.},
author = {Asier Gutiérrez Fandiño and Jordi Armengol Estapé and Marc Pàmies and Joan Llop Palao and Joaquin Silveira Ocampo and Casimiro Pio Carrino and Carme Armentano Oller and Carlos Rodriguez Penagos and Aitor Gonzalez Agirre and Marta Villegas},
doi = {10.26342/2022-68-3},
issn = {1135-5948},
journal = {Procesamiento del Lenguaje Natural},
keywords = {Artificial intelligence,Benchmarking,Data processing.,MarIA,Natural language processing,Spanish language modelling,Spanish language resources,Tractament del llenguatge natural (Informàtica),Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural},
publisher = {Sociedad Española para el Procesamiento del Lenguaje Natural},
title = {MarIA: Spanish Language Models},
volume = {68},
url = {https://upcommons.upc.edu/handle/2117/367156#.YyMTB4X9A-0.mendeley},
year = {2022},
}
免責事項
このリポジトリに公開されているモデルは、一般的な目的で作成されており、第三者に利用可能です。これらのモデルには、バイアスやその他の望ましくない歪みが含まれている可能性があります。
第三者がこれらのモデル(またはこれらのモデルに基づくシステム)を使用してシステムやサービスを展開または提供する場合、またはこれらのモデルのユーザーになる場合、彼らはその使用に起因するリスクを軽減する責任があり、いずれの場合も、人工知能の使用に関する規制を含む適用可能な規制に準拠する必要があります。
いかなる場合も、モデルの所有者(SEDIA - デジタル化と人工知能国家事務局)および作成者(BSC - バルセロナスーパーコンピューティングセンター)は、第三者によるこれらのモデルの使用に起因する結果について責任を負いません。
情報テーブル
| 属性 | 詳情 |
|------|------|
| モデルタイプ | 固有表現認識(NER)モデル |
| 学習データ | BNE、CAPITEL |
| 評価指標 | F1 |