🚀 カタルーニャ語の品詞タグ付け(POS)用にファインチューニングされたカタルーニャ語BERTa (roberta-base-ca)
このモデルは、カタルーニャ語の品詞タグ付け(POS)を行うために、roberta-base-caモデルをファインチューニングしたものです。カタルーニャ語のテキストに対して高精度な品詞タグ付けを提供します。
📚 目次
クリックして展開
📖 モデルの説明
roberta-base-ca-cased-pos は、カタルーニャ語の品詞タグ付け(POS)モデルです。このモデルは、roberta-base-caモデルからファインチューニングされており、roberta-base-caモデルは、公開されているコーパスとクローラーから収集された中規模のコーパスで事前学習された RoBERTa ベースモデルです。
🎯 想定される用途と制限
roberta-base-ca-cased-pos モデルは、カタルーニャ語のテキストに対して品詞タグ付け(POS)を行うために使用できます。ただし、このモデルはトレーニングデータによって制限されており、すべてのユースケースに対して良好に汎化できない可能性があります。
💻 使い方
このモデルの使い方は以下の通りです。
基本的な使用法
from transformers import pipeline
from pprint import pprint
nlp = pipeline("token-classification", model="projecte-aina/roberta-base-ca-cased-pos")
example = "Em dic Lluïsa i visc a Santa Maria del Camí."
pos_results = nlp(example)
pprint(pos_results)
⚠️ 制限とバイアス
提出時点では、モデルに埋め込まれたバイアスを推定するための措置は取られていません。ただし、コーパスが複数のウェブソースからクローリング技術を使用して収集されているため、当社のモデルにはバイアスが含まれる可能性があることを十分に認識しています。将来的にはこれらの分野での研究を行う予定であり、研究が完了した場合、このモデルカードは更新されます。
🔧 トレーニング
📊 トレーニングデータ
トレーニングと評価には、Universal Dependencies Treebank のカタルーニャ語のPOSデータセット、Ancora-ca-pos を使用しました。
⚙️ トレーニング手順
モデルは、バッチサイズ16、学習率5e-5で5エポックトレーニングされました。その後、対応する開発セットの下流タスクメトリックを使用して最良のチェックポイントを選択し、テストセットで評価しました。
📈 評価
📏 変数とメトリクス
このモデルは、F1スコアを最大化するようにファインチューニングされました。
📊 評価結果
roberta-base-ca-cased-pos をAncora-ca-nerテストセットで、標準的な多言語および単言語のベースラインと比較して評価しました。
モデル |
AnCora-Ca-POS (F1) |
roberta-base-ca-cased-pos |
98.93 |
mBERT |
98.82 |
XLM-RoBERTa |
98.89 |
WikiBERT-ca |
97.60 |
詳細については、公式 GitHubリポジトリ のファインチューニングと評価スクリプトを確認してください。
ℹ️ 追加情報
👤 著者
Barcelona Supercomputing CenterのText Mining Unit (TeMU) (bsc-temu@bsc.es)
📧 連絡先情報
詳細な情報については、aina@bsc.esにメールを送信してください。
©️ 著作権
Copyright (c) 2022 Barcelona Supercomputing CenterのText Mining Unit
📄 ライセンス情報
Apache License, Version 2.0
💰 資金提供
この研究は、[Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya](https://politiquesdigitals.gencat.cat/ca/inici/index.html#googtrans(ca|en) の Projecte AINA の枠組みの中で資金提供を受けています。
📚 引用情報
これらのリソース(データセットまたはモデル)をあなたの研究で使用する場合は、最新の論文を引用してください。
@inproceedings{armengol-estape-etal-2021-multilingual,
title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
author = "Armengol-Estap{\'e}, Jordi and
Carrino, Casimiro Pio and
Rodriguez-Penagos, Carlos and
de Gibert Bonet, Ona and
Armentano-Oller, Carme and
Gonzalez-Agirre, Aitor and
Melero, Maite and
Villegas, Marta",
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.findings-acl.437",
doi = "10.18653/v1/2021.findings-acl.437",
pages = "4933--4946",
}
🚫 免責事項
クリックして展開
このリポジトリに公開されているモデルは、一般的な目的で作成されており、第三者に利用可能です。これらのモデルには、バイアスやその他の望ましくない歪みが含まれている可能性があります。
第三者がこれらのモデル(またはこれらのモデルに基づくシステム)を使用してシステムやサービスを他の者に提供する場合、またはこれらのモデルのユーザーになる場合、その使用に伴うリスクを軽減し、あらゆる場合において、適用される規制(人工知能の使用に関する規制を含む)を遵守する責任は彼ら自身にあります。
いかなる場合も、モデルの所有者および作成者(BSC – Barcelona Supercomputing Center)は、第三者によるこれらのモデルの使用に起因する結果について責任を負いません。