🚀 カタルーニャ語の固有表現認識用にファインチューニングされたBERTa-v2 (roberta-base-ca-v2)
このモデルは、カタルーニャ語の固有表現認識(NER)に特化しており、roberta-base-ca-v2 モデルをベースにファインチューニングされています。
🚀 クイックスタート
このモデルの基本的な使い方は以下の通りです。
from transformers import pipeline
from pprint import pprint
nlp = pipeline("ner", model="projecte-aina/roberta-base-ca-v2-cased-ner")
example = "Em dic Lluïsa i visc a Santa Maria del Camí."
ner_results = nlp(example)
pprint(ner_results)
[{'entity_group': 'person-other', 'score': 0.90749526, 'word': ' George Smith Patton', 'start': 0, 'end': 19}, {'entity_group': 'organization-other', 'score': 0.9260813, 'word': ' Ejército de los Estados Unidos', 'start': 39, 'end': 69}, {'entity_group': 'location-other', 'score': 0.992481, 'word': ' Europa', 'start': 73, 'end': 79}, {'entity_group': 'event-attack/terrorism/militaryconflict', 'score': 0.99319077, 'word': ' Segunda Guerra Mundial', 'start': 91, 'end': 113}]
✨ 主な機能
📚 ドキュメント
モデルの説明
roberta-base-ca-v2-cased-ner は、カタルーニャ語の固有表現認識(NER)モデルです。このモデルは、roberta-base-ca-v2 モデルからファインチューニングされており、RoBERTa ベースモデルを公開されているコーパスやクローラーから収集した中規模のコーパスで事前学習したものです(詳細は roberta-base-ca-v2 のモデルカードを参照)。
想定される用途と制限
roberta-base-ca-v2-cased-ner モデルは、与えられたテキスト内の固有表現を認識するために使用できます。ただし、このモデルは学習データセットに制限されており、すべてのユースケースに対してうまく汎化できない可能性があります。
制限事項とバイアス
提出時点では、モデルに埋め込まれたバイアスを推定するための措置は取られていません。ただし、コーパスが複数のウェブソースからクローリング技術を使用して収集されているため、当社のモデルにはバイアスが含まれる可能性があることを十分に認識しています。将来的にこれらの分野での研究を行う予定であり、完了した場合はこのモデルカードを更新します。
学習
学習データ
学習と評価には、カタルーニャ語のNERデータセット AnCora-Ca-NER を使用しました。
学習手順
このモデルは、バッチサイズ16、学習率5e-5で5エポック学習されました。その後、対応する開発セットの下流タスクメトリックを使用して最適なチェックポイントを選択し、テストセットで評価しました。
評価
変数とメトリクス
このモデルは、F1スコアを最大化するようにファインチューニングされています。
評価結果
roberta-base-ca-v2-cased-ner を AnCora-Ca-NER テストセットで、標準的な多言語および単言語のベースラインと比較して評価しました。
モデル |
AnCora-Ca-NER (F1) |
roberta-base-ca-v2-cased-ner |
89.29 |
roberta-base-ca-cased-ner |
89.76 |
mBERT |
86.87 |
XLM-RoBERTa |
86.31 |
詳細については、公式 GitHubリポジトリ のファインチューニングと評価スクリプトを確認してください。
追加情報
著者
Barcelona Supercomputing Center の Text Mining Unit (TeMU) (bsc-temu@bsc.es)
連絡先情報
詳細については、aina@bsc.es にメールを送信してください。
著作権
Copyright (c) 2022 Barcelona Supercomputing Center の Text Mining Unit
ライセンス情報
Apache License, Version 2.0
資金提供
この研究は、[Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya](https://politiquesdigitals.gencat.cat/ca/inici/index.html#googtrans(ca|en) の Projecte AINA の枠組みの中で行われました。
引用情報
これらのリソース(データセットまたはモデル)をあなたの研究で使用する場合は、最新の論文を引用してください。
@inproceedings{armengol-estape-etal-2021-multilingual,
title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
author = "Armengol-Estap{\'e}, Jordi and
Carrino, Casimiro Pio and
Rodriguez-Penagos, Carlos and
de Gibert Bonet, Ona and
Armentano-Oller, Carme and
Gonzalez-Agirre, Aitor and
Melero, Maite and
Villegas, Marta",
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.findings-acl.437",
doi = "10.18653/v1/2021.findings-acl.437",
pages = "4933--4946",
}
免責事項
このリポジトリに公開されているモデルは、一般的な目的で作成されており、第三者に利用可能です。これらのモデルにはバイアスやその他の望ましくない歪みが含まれる可能性があります。
第三者がこれらのモデルを使用してシステムやサービスを展開または提供する場合、またはこれらのモデルのユーザーになる場合、その使用に伴うリスクを軽減し、適用される規制(人工知能の使用に関する規制を含む)を遵守する責任があることに注意する必要があります。
いかなる場合も、モデルの所有者および作成者(BSC – Barcelona Supercomputing Center)は、第三者によるこれらのモデルの使用に起因するいかなる結果に対しても責任を負いません。
📄 ライセンス
Apache License, Version 2.0