🚀 カタルーニャ語のBERTa (roberta-base-ca) をテキストエンテイルメント用にファインチューニングしたモデル
このモデルは、カタルーニャ語のテキストエンテイルメント(TE)を扱うために、roberta-base-ca モデルをファインチューニングしたものです。
🚀 クイックスタート
このモデルの使い方は以下の通りです。
基本的な使用法
from transformers import pipeline
from pprint import pprint
nlp = pipeline("text-classification", model="projecte-aina/roberta-base-ca-cased-te")
example = "M'agrada el sol i la calor. </s></s> A la Garrotxa plou molt."
te_results = nlp(example)
pprint(te_results)
✨ 主な機能
- カタルーニャ語のテキストエンテイルメントを認識することができます。
📚 ドキュメント
モデルの説明
roberta-base-ca-cased-te は、roberta-base-ca モデルからファインチューニングされた、カタルーニャ語用のテキストエンテイルメント(TE)モデルです。roberta-base-ca モデルは、公開されているコーパスやクローラーから収集された中規模のコーパスで事前学習された RoBERTa ベースのモデルです。
想定される用途と制限
このモデルは、テキストエンテイルメント(TE)を認識するために使用できます。ただし、トレーニングデータセットによる制限があり、すべてのユースケースに対して良好な汎化性能を示すとは限りません。
制限とバイアス
提出時点では、モデルに埋め込まれたバイアスを推定するための対策は取られていません。ただし、コーパスが複数のウェブソースからクローリング技術を用いて収集されているため、モデルにバイアスが存在する可能性があることは十分に認識しています。将来的にこれらの分野での研究を行う予定であり、研究が完了した場合には、このモデルカードを更新します。
トレーニング
トレーニングデータ
トレーニングと評価には、カタルーニャ語の TE データセット TE-ca を使用しました。
トレーニング手順
このモデルは、バッチサイズ 16、学習率 5e-5 で 5 エポックトレーニングされました。その後、対応する開発セットの下流タスクメトリックを使用して最良のチェックポイントを選択し、テストセットで評価しました。
評価
変数とメトリクス
このモデルは、精度を最大化するようにファインチューニングされました。
評価結果
roberta-base-ca-cased-te を TE-ca テストセットで、標準的な多言語および単言語のベースラインと比較して評価しました。
モデル |
TE-ca (精度) |
BERTa |
79.12 |
mBERT |
74.78 |
XLM-RoBERTa |
75.44 |
詳細については、公式の GitHub リポジトリ のファインチューニングと評価のスクリプトを確認してください。
追加情報
著者
Barcelona Supercomputing Center の Text Mining Unit (TeMU) (bsc-temu@bsc.es)
連絡先情報
詳細な情報については、aina@bsc.es にメールを送信してください。
著作権
Copyright (c) 2022 Barcelona Supercomputing Center の Text Mining Unit
ライセンス情報
Apache License, Version 2.0
資金提供
この研究は、[Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya](https://politiquesdigitals.gencat.cat/ca/inici/index.html#googtrans(ca|en) の Projecte AINA の枠組みの下で資金提供を受けています。
引用情報
あなたの研究でこれらのリソース(データセットまたはモデル)を使用する場合は、最新の論文を引用してください。
@inproceedings{armengol-estape-etal-2021-multilingual,
title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
author = "Armengol-Estap{\'e}, Jordi and
Carrino, Casimiro Pio and
Rodriguez-Penagos, Carlos and
de Gibert Bonet, Ona and
Armentano-Oller, Carme and
Gonzalez-Agirre, Aitor and
Melero, Maite and
Villegas, Marta",
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.findings-acl.437",
doi = "10.18653/v1/2021.findings-acl.437",
pages = "4933--4946",
}
免責事項
このリポジトリに公開されているモデルは、一般的な目的で作成されており、第三者に利用可能です。これらのモデルにはバイアスやその他の望ましくない歪みが含まれている可能性があります。
第三者がこれらのモデル(またはこれらのモデルをベースとしたシステム)を使用してシステムやサービスを展開または提供する場合、またはこれらのモデルのユーザーになる場合、その使用に伴うリスクを軽減する責任は彼ら自身にあり、いずれの場合も、適用される規制、特に人工知能の使用に関する規制を遵守する必要があります。
いかなる場合も、モデルの所有者および作成者(BSC – Barcelona Supercomputing Center)は、第三者によるこれらのモデルの使用に起因するいかなる結果に対しても責任を負いません。