🚀 カタルーニャ語のセマンティックテキスト類似度に微調整されたカタルーニャ語BERTa (roberta-base-ca)
このモデルは、カタルーニャ語のセマンティックテキスト類似度評価に特化しており、roberta-base-caモデルを微調整したものです。カタルーニャ語の文章間の類似度を高精度に評価することができます。
🚀 クイックスタート
このモデルを使用するには、以下の手順に従ってください。
✨ 主な機能
- カタルーニャ語の文章間のセマンティックテキスト類似度を評価します。
- 公開されているコーパスとクローラーから収集された中規模のコーパスで事前学習されたRoBERTaベースモデルを利用しています。
📦 インストール
必要なライブラリをインストールすることで、このモデルを使用することができます。
💻 使用例
基本的な使用法
from transformers import pipeline, AutoTokenizer
from scipy.special import logit
model = 'projecte-aina/roberta-base-ca-cased-sts'
tokenizer = AutoTokenizer.from_pretrained(model)
pipe = pipeline('text-classification', model=model, tokenizer=tokenizer)
def prepare(sentence_pairs):
sentence_pairs_prep = []
for s1, s2 in sentence_pairs:
sentence_pairs_prep.append(f"{tokenizer.cls_token} {s1}{tokenizer.sep_token}{tokenizer.sep_token} {s2}{tokenizer.sep_token}")
return sentence_pairs_prep
sentence_pairs = [("El llibre va caure per la finestra.", "El llibre va sortir volant."),
("M'agrades.", "T'estimo."),
("M'agrada el sol i la calor", "A la Garrotxa plou molt.")]
predictions = pipe(prepare(sentence_pairs), add_special_tokens=False)
for prediction in predictions:
prediction['score'] = logit(prediction['score'])
print(predictions)
高度な使用法
📚 ドキュメント
モデルの説明
roberta-base-ca-cased-sts は、カタルーニャ語のセマンティックテキスト類似度(STS)モデルです。このモデルは、roberta-base-caモデルをベースに微調整されており、公開されているコーパスとクローラーから収集された中規模のコーパスで事前学習された RoBERTa ベースモデルを利用しています。
想定される用途と制限
roberta-base-ca-cased-sts モデルは、2つの文章の類似度を評価するために使用できます。ただし、このモデルは学習データセットに制限されており、すべてのユースケースに対して汎化性能が高いとは限りません。
制限とバイアス
提出時点では、モデルに埋め込まれたバイアスを推定するための対策は取られていません。ただし、複数のウェブソースからクローリング技術を使用してコーパスを収集しているため、モデルにバイアスが含まれる可能性があることを十分に認識しています。将来的にこれらの領域での研究を行う予定であり、完了した場合はこのモデルカードを更新します。
トレーニング
トレーニングデータ
トレーニングと評価には、カタルーニャ語のSTSデータセット STS-ca を使用しました。
トレーニング手順
モデルは、バッチサイズ16、学習率5e-5で5エポックトレーニングされました。その後、対応する開発セットの下流タスクメトリックを使用して最良のチェックポイントを選択し、テストセットで評価しました。
評価
変数とメトリック
このモデルは、ピアソン相関係数とスピアマン相関係数の平均スコアを最大化するように微調整されています。
評価結果
roberta-base-ca-cased-sts をSTS-caテストセットで、標準的な多言語および単言語のベースラインと比較して評価しました。
モデル |
STS-ca (ピアソンスコア) |
roberta-base-ca-cased-sts |
79.73 |
mBERT |
74.26 |
XLM-RoBERTa |
61.61 |
詳細については、公式の GitHubリポジトリ の微調整と評価スクリプトを確認してください。
追加情報
著者
Barcelona Supercomputing CenterのText Mining Unit (TeMU) (bsc-temu@bsc.es)
連絡先情報
詳細な情報については、aina@bsc.esにメールを送信してください。
著作権
Copyright (c) 2022 Barcelona Supercomputing CenterのText Mining Unit
ライセンス情報
Apache License, Version 2.0
資金提供
この研究は、[Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya](https://politiquesdigitals.gencat.cat/ca/inici/index.html#googtrans(ca|en) の Projecte AINA の枠組みの下で資金提供を受けています。
引用情報
これらのリソース(データセットまたはモデル)をあなたの研究で使用する場合は、最新の論文を引用してください。
@inproceedings{armengol-estape-etal-2021-multilingual,
title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
author = "Armengol-Estap{\'e}, Jordi and
Carrino, Casimiro Pio and
Rodriguez-Penagos, Carlos and
de Gibert Bonet, Ona and
Armentano-Oller, Carme and
Gonzalez-Agirre, Aitor and
Melero, Maite and
Villegas, Marta",
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.findings-acl.437",
doi = "10.18653/v1/2021.findings-acl.437",
pages = "4933--4946",
}
免責事項
このリポジトリに公開されているモデルは、一般的な目的で作成されており、第三者に利用可能です。これらのモデルにはバイアスやその他の望ましくない歪みが含まれる可能性があります。
第三者がこれらのモデルを使用してシステムやサービスを展開または提供する場合、またはモデルのユーザーになる場合、その使用に伴うリスクを軽減する責任は第三者にあり、いずれの場合も、適用される規制、特に人工知能の使用に関する規制を遵守する必要があります。
いかなる場合も、モデルの所有者および作成者(BSC – Barcelona Supercomputing Center)は、第三者によるこれらのモデルの使用に起因する結果に対して責任を負いません。
📄 ライセンス
このプロジェクトは、Apache License 2.0の下でライセンスされています。詳細については、Apache License, Version 2.0 を参照してください。
情報テーブル
属性 |
详情 |
パイプラインタグ |
テキスト分類 |
言語 |
カタルーニャ語 |
ライセンス |
Apache License 2.0 |
タグ |
カタルーニャ語、セマンティックテキスト類似度、sts-ca、CaText、カタルーニャ語テキストコーパス |
データセット |
projecte-aina/sts-ca |
評価指標 |
総合スコア |
モデル名 |
roberta-base-ca-cased-sts |
タスクタイプ |
テキスト分類 |
データセットタイプ |
projecte-aina/sts-ca |
データセット名 |
STS-ca |
評価指標名 |
Pearson |
評価指標タイプ |
Pearson |
評価指標値 |
0.797 |