🚀 スペイン語のRoBERTa-baseをBNEで学習し、CAPITELの固有表現認識(NER)データセットで微調整したモデル
このモデルは、スペイン語の固有表現認識(NER)に特化しており、RoBERTa-baseをBNEコーパスで事前学習し、CAPITELデータセットで微調整しています。
🚀 クイックスタート
モデルの使用例
from transformers import pipeline
from pprint import pprint
nlp = pipeline("ner", model="PlanTL-GOB-ES/roberta-base-bne-capitel-ner-plus")
example = "Me llamo francisco javier y vivo en madrid."
ner_results = nlp(example)
pprint(ner_results)
✨ 主な機能
- 固有表現認識:スペイン語の文章から固有表現を認識します。
- 微調整済み:BNEコーパスで事前学習し、CAPITELデータセットで微調整しています。
📦 インストール
このモデルはHugging FaceのTransformersライブラリを介して使用できます。以下のコマンドでライブラリをインストールできます。
pip install transformers
📚 ドキュメント
モデルの説明
roberta-base-bne-capitel-ner-plus は、スペイン語の固有表現認識(NER)モデルです。このモデルは、roberta-base-bne モデルをベースに、CAPITELコンペティション2020 のデータセットで微調整されています。roberta-base-bne は、RoBERTa のベースモデルで、スペイン語の最大のコーパスを使って事前学習されています。
想定される用途と制限
このモデルは、スペイン語の固有表現認識に使用できます。ただし、学習データセットによる制限があり、すべてのユースケースに対して汎化性能が高いとは限りません。
制限とバイアス
提出時点では、モデルに埋め込まれたバイアスを推定するための対策は取られていません。ただし、コーパスが複数のウェブソースからクローリング技術を使って収集されているため、モデルにバイアスが含まれる可能性があることは十分に認識しています。将来的にこれらの分野で研究を行い、完了した場合はこのモデルカードを更新する予定です。
学習
学習データ
学習と評価に使用されたデータセットは、CAPITELコンペティション2020 (サブタスク1)のものです。データセットを小文字化と大文字化し、学習に追加の文を追加しました。
学習手順
モデルは、バッチサイズ16、学習率5e-5で5エポック学習されました。その後、対応する開発セットの下流タスクメトリックを使用して最良のチェックポイントを選択し、テストセットで評価しました。
評価
変数とメトリクス
このモデルは、F1スコアを最大化するように微調整されました。
評価結果
roberta-base-bne-capitel-ner-plus をCAPITEL-NERCテストセットで、標準的な多言語および単言語のベースラインと比較して評価しました。
モデル |
CAPITEL-NERC (F1) |
roberta-large-bne-capitel-ner |
90.51 |
roberta-base-bne-capitel-ner |
89.60 |
roberta-base-bne-capitel-ner-plus |
89.60 |
BETO |
87.72 |
mBERT |
88.10 |
BERTIN |
88.56 |
ELECTRA |
80.35 |
詳細については、公式の GitHubリポジトリ の微調整と評価スクリプトを確認してください。
追加情報
著者
Barcelona Supercomputing CenterのText Mining Unit (TeMU) (bsc-temu@bsc.es)
連絡先情報
詳細な情報については、plantl-gob-es@bsc.es にメールを送信してください。
著作権
著作権は、スペインのデジタル化と人工知能に関する国家事務局 (SEDIA) (2022) に帰属します。
ライセンス情報
Apache License, Version 2.0
資金提供
この研究は、スペインのデジタル化と人工知能に関する国家事務局 (SEDIA) がPlan-TLの枠組みで資金提供しています。
引用情報
このモデルを使用する場合は、以下の 論文 を引用してください。
@article{,
abstract = {We want to thank the National Library of Spain for such a large effort on the data gathering and the Future of Computing Center, a
Barcelona Supercomputing Center and IBM initiative (2020). This work was funded by the Spanish State Secretariat for Digitalization and Artificial
Intelligence (SEDIA) within the framework of the Plan-TL.},
author = {Asier Gutiérrez Fandiño and Jordi Armengol Estapé and Marc Pàmies and Joan Llop Palao and Joaquin Silveira Ocampo and Casimiro Pio Carrino and Carme Armentano Oller and Carlos Rodriguez Penagos and Aitor Gonzalez Agirre and Marta Villegas},
doi = {10.26342/2022-68-3},
issn = {1135-5948},
journal = {Procesamiento del Lenguaje Natural},
keywords = {Artificial intelligence,Benchmarking,Data processing.,MarIA,Natural language processing,Spanish language modelling,Spanish language resources,Tractament del llenguatge natural (Informàtica),Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural},
publisher = {Sociedad Española para el Procesamiento del Lenguaje Natural},
title = {MarIA: Spanish Language Models},
volume = {68},
url = {https://upcommons.upc.edu/handle/2117/367156#.YyMTB4X9A-0.mendeley},
year = {2022},
}
免責事項
このリポジトリに公開されているモデルは、一般的な目的で作成されており、第三者に利用可能です。これらのモデルにはバイアスやその他の望ましくない歪みが含まれる可能性があります。
第三者がこれらのモデルを使用してシステムやサービスを展開または提供する場合、またはモデルのユーザーになる場合、その使用に伴うリスクを軽減し、適用される規制、特に人工知能の使用に関する規制を遵守する責任があります。
いかなる場合も、モデルの所有者(SEDIA – デジタル化と人工知能に関する国家事務局)や作成者(BSC – Barcelona Supercomputing Center)は、第三者によるこれらのモデルの使用に起因する結果について責任を負いません。
📄 ライセンス
このモデルは Apache License 2.0 の下で公開されています。