🚀 スペイン語のRoBERTa-baseモデルをBNEで学習し、CAPITELの固有表現認識(NER)データセットで微調整したモデル
このモデルは、スペイン語の固有表現認識(NER)を行うために、roberta-base-bne モデルから微調整されたものです。
🚀 クイックスタート
以下のコードを使用して、このモデルを利用できます。
from transformers import pipeline
from pprint import pprint
nlp = pipeline("ner", model="PlanTL-GOB-ES/roberta-base-bne-capitel-ner")
example = "Me llamo Francisco Javier y vivo en Madrid."
ner_results = nlp(example)
pprint(ner_results)
✨ 主な機能
- 固有表現認識:スペイン語のテキストから固有表現を認識します。
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
📚 ドキュメント
モデルの説明
roberta-base-bne-capitel-ner は、スペイン語の固有表現認識(NER)モデルです。このモデルは、roberta-base-bne モデルから微調整されており、RoBERTa ベースモデルを使用しています。このモデルは、2009年から2019年までに スペイン国立図書館 (Biblioteca Nacional de España) が収集した、最大570GBのクリーンで重複のないテキストから構成されるコーパスを使用して事前学習されています。
想定される用途と制限
roberta-base-bne-capitel-ner モデルは、固有表現(NE)を認識するために使用できます。ただし、このモデルは学習データセットによって制限されており、すべてのユースケースに対して汎化性能が高いとは限りません。
制限事項とバイアス
提出時点では、モデルに埋め込まれたバイアスを推定するための対策は取られていません。ただし、コーパスが複数のウェブソースからクローリング技術を使用して収集されているため、モデルにバイアスが含まれる可能性があることは十分に認識しています。将来的にはこれらの分野での研究を行う予定であり、研究が完了した場合にはこのモデルカードを更新します。
学習
学習と評価に使用されたデータセットは、IberLEF 2020のCAPITELコンペティション (サブタスク1)のものです。
学習手順
このモデルは、バッチサイズ16、学習率5e-5で5エポック学習されました。その後、対応する開発セットの下流タスクメトリックを使用して最適なチェックポイントを選択し、テストセットで評価しました。
評価
変数とメトリクス
このモデルは、F1スコアを最大化するように微調整されています。
評価結果
roberta-base-bne-capitel-ner をCAPITEL-NERCテストセットで、標準的な多言語および単言語のベースラインと比較して評価しました。
モデル |
CAPITEL-NERC (F1) |
roberta-large-bne-capitel-ner |
90.51 |
roberta-base-bne-capitel-ner |
89.60 |
BETO |
87.72 |
mBERT |
88.10 |
BERTIN |
88.56 |
ELECTRA |
80.35 |
詳細については、公式 GitHubリポジトリ の微調整と評価スクリプトを確認してください。
追加情報
作成者
バルセロナスーパーコンピューティングセンターのテキストマイニングユニット (TeMU) (bsc-temu@bsc.es)
連絡先情報
詳細については、plantl-gob-es@bsc.es までメールを送信してください。
著作権
スペイン国のデジタル化と人工知能担当国務省 (SEDIA) による著作権 (2022)
ライセンス情報
Apache License, Version 2.0
資金提供
この研究は、スペイン国のデジタル化と人工知能担当国務省 (SEDIA) がPlan-TLの枠組みの下で資金提供しています。
引用情報
このモデルを使用する場合は、以下の 論文 を引用してください。
@article{,
abstract = {We want to thank the National Library of Spain for such a large effort on the data gathering and the Future of Computing Center, a
Barcelona Supercomputing Center and IBM initiative (2020). This work was funded by the Spanish State Secretariat for Digitalization and Artificial
Intelligence (SEDIA) within the framework of the Plan-TL.},
author = {Asier Gutiérrez Fandiño and Jordi Armengol Estapé and Marc Pàmies and Joan Llop Palao and Joaquin Silveira Ocampo and Casimiro Pio Carrino and Carme Armentano Oller and Carlos Rodriguez Penagos and Aitor Gonzalez Agirre and Marta Villegas},
doi = {10.26342/2022-68-3},
issn = {1135-5948},
journal = {Procesamiento del Lenguaje Natural},
keywords = {Artificial intelligence,Benchmarking,Data processing.,MarIA,Natural language processing,Spanish language modelling,Spanish language resources,Tractament del llenguatge natural (Informàtica),Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural},
publisher = {Sociedad Española para el Procesamiento del Lenguaje Natural},
title = {MarIA: Spanish Language Models},
volume = {68},
url = {https://upcommons.upc.edu/handle/2117/367156#.YyMTB4X9A-0.mendeley},
year = {2022},
}
免責事項
このリポジトリに公開されているモデルは、一般的な目的で作成されており、第三者に利用可能です。これらのモデルにはバイアスやその他の望ましくない歪みが含まれる可能性があります。
第三者がこれらのモデルを使用してシステムやサービスを展開または提供する場合、またはこれらのモデルのユーザーになる場合、その使用に伴うリスクを軽減する責任は彼ら自身にあり、いずれの場合も、人工知能の使用に関する規制を含む適用される規制に準拠する必要があります。
いかなる場合も、モデルの所有者(SEDIA – デジタル化と人工知能担当国務省)または作成者(BSC – バルセロナスーパーコンピューティングセンター)は、第三者によるこれらのモデルの使用に起因する結果について責任を負いません。