🚀 カタルーニャ語の固有表現抽出用にファインチューニングされたBERTa (RoBERTa-base)
このモデルは、カタルーニャ語の固有表現抽出を行うために、BERTaモデルからファインチューニングされたものです。カタルーニャ語のテキストにおける固有表現を高精度に識別することができます。
🚀 クイックスタート
このモデルはカタルーニャ語の固有表現抽出に特化しており、以下のセクションで詳細な情報を提供します。
✨ 主な機能
- カタルーニャ語対応: カタルーニャ語の固有表現抽出に最適化されています。
- 高精度: 評価結果によると、高いF1スコアを達成しています。
📦 インストール
このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコードを参考にしてください。
pip install transformers
💻 使用例
基本的な使用法
from transformers import pipeline
pipe = pipeline("ner", model="projecte-aina/multiner_ceil")
example = "George Smith Patton fué un general del Ejército de los Estados Unidos en Europa durante la Segunda Guerra Mundial. "
ner_entity_results = pipe(example, aggregation_strategy="simple")
print(ner_entity_results)
[{'entity_group': 'PER', 'score': 0.9983406, 'word': ' George Smith Patton', 'start': 0, 'end': 19}, {'entity_group': 'ORG', 'score': 0.99790734, 'word': ' Ejército de los Estados Unidos', 'start': 39, 'end': 69}, {'entity_group': 'LOC', 'score': 0.98424107, 'word': ' Europa', 'start': 73, 'end': 79}, {'entity_group': 'MISC', 'score': 0.9963934, 'word': ' Seg', 'start': 91, 'end': 94}, {'entity_group': 'MISC', 'score': 0.97889286, 'word': 'unda Guerra Mundial', 'start': 94, 'end': 113}]
📚 ドキュメント
モデルの説明
roberta-base-ca-cased-ner は、カタルーニャ語の固有表現抽出 (NER) モデルです。このモデルは、BERTa モデルからファインチューニングされており、RoBERTa のベースモデルを使用しています。BERTaモデルは、公開されているコーパスやクローラーから収集された中規模のコーパスで事前学習されています(詳細はBERTaモデルのカードを参照してください)。
想定される用途と制限
想定される用途と制限についての詳細は、原文書に記載がありませんでした。
訓練
訓練データ
このモデルの訓練には、カタルーニャ語のNERデータセット Ancora-ca-ner が使用されました。
訓練手順
訓練手順についての詳細は、原文書に記載がありませんでした。
評価
変数と指標
評価には、F1スコアが使用されました。
評価結果
モデル |
Ancora-ca-ner (F1) |
roberta-base-ca-cased-ner |
88.13 |
mBERT |
86.38 |
XLM-RoBERTa |
87.66 |
WikiBERT-ca |
77.66 |
詳細については、公式の GitHubリポジトリ のファインチューニングと評価スクリプトを参照してください。
追加情報
著者
Text Mining Unit (TeMU) at the Barcelona Supercomputing Center (bsc-temu@bsc.es)
連絡先
詳細な情報については、aina@bsc.es までメールを送信してください。
著作権
Copyright (c) 2021 Text Mining Unit at Barcelona Supercomputing Center
ライセンス情報
Apache License, Version 2.0
資金提供
この研究は、[Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya](https://politiquesdigitals.gencat.cat/ca/inici/index.html#googtrans(ca|en) の Projecte AINA の枠組みの中で行われました。
引用情報
もしあなたの研究でこれらのリソース(データセットやモデル)を使用した場合、最新の論文を引用してください。
@inproceedings{armengol-estape-etal-2021-multilingual,
title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
author = "Armengol-Estap{\'e}, Jordi and
Carrino, Casimiro Pio and
Rodriguez-Penagos, Carlos and
de Gibert Bonet, Ona and
Armentano-Oller, Carme and
Gonzalez-Agirre, Aitor and
Melero, Maite and
Villegas, Marta",
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.findings-acl.437",
doi = "10.18653/v1/2021.findings-acl.437",
pages = "4933--4946",
}
免責事項
このリポジトリに公開されているモデルは、一般的な目的で作成されており、第三者に利用可能です。これらのモデルには、バイアスやその他の望ましくない歪みが含まれている可能性があります。
第三者がこれらのモデルを使用してシステムやサービスを展開または提供する場合、またはこれらのモデルのユーザーになる場合、その使用に伴うリスクを軽減する責任は第三者にあり、いかなる場合も、適用される規制(人工知能の使用に関する規制を含む)を遵守する必要があります。
いかなる場合も、モデルの所有者および作成者(BSC – Barcelona Supercomputing Center)は、第三者によるこれらのモデルの使用に起因する結果について責任を負いません。