🚀 roberta-base-ca-finetuned-cyberbullying-catalan
このモデルは、[BSC - TeMU/roberta - base - ca](https://huggingface.co/BSC - TeMU/roberta - base - ca) を、ソーシャルネットワーク(Twitter、Youtubeなど)をスクレイピングして生成したカタルーニャ語のサイバーブライング検出用データセットでファインチューニングしたバージョンです。
評価セットでは以下の結果を達成しています:
🚀 クイックスタート
このモデルは、カタルーニャ語のサイバーブライングを検出するために、BSC - TeMU/roberta - base - ca をファインチューニングしたものです。以下のセクションでは、モデルのトレーニングデータ、トレーニング手順、使用例について説明します。
✨ 主な機能
- カタルーニャ語のサイバーブライングを高精度に検出します。
- 評価セットでは、損失0.1508、正解率0.9665を達成しています。
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import pipeline
model_path = "JonatanGk/roberta-base-ca-finetuned-ciberbullying-catalan"
bullying_analysis = pipeline("text-classification", model=model_path, tokenizer=model_path)
bullying_analysis(
"Des que et vaig veure m'en vaig enamorar de tu."
)
[{'label': 'Not_bullying', 'score': 0.9996786117553711}]
bullying_analysis(
"Ets tan lletja que et donaven de menjar per sota la porta."
)
[{'label': 'Bullying', 'score': 0.9927878975868225}]
📚 ドキュメント
トレーニングと評価データ
このモデルをファインチューニングするために、ソーシャルネットワーク(Twitter、Youtube、Discordなど)をスクレイピングして生成した複数のデータセットを結合して使用しました。文章ペアの総数は41万文以上です。[roberta - base - bne - finetuned - cyberbullying - spanish](https://huggingface.co/JonatanGk/roberta - base - bne - finetuned - cyberbullying - spanish) でも同様の方法でトレーニングされています。
トレーニング手順
トレーニングハイパーパラメータ
トレーニング中に以下のハイパーパラメータが使用されました:
- learning_rate: 2e - 05
- train_batch_size: 16
- eval_batch_size: 16
- seed: 42
- optimizer: Adam with betas=(0.9,0.999) and epsilon = 1e - 08
- lr_scheduler_type: linear
- num_epochs: 4
フレームワークのバージョン
- Transformers 4.10.3
- Pytorch 1.9.0+cu102
- Datasets 1.12.1
- Tokenizers 0.10.3
🔧 技術詳細
このモデルは、BSC - TeMU/roberta - base - ca をベースに、カタルーニャ語のサイバーブライング検出用にファインチューニングされています。トレーニングデータはソーシャルネットワークから収集され、総数は41万文以上です。トレーニングには、特定のハイパーパラメータが使用され、評価セットでは損失0.1508、正解率0.9665を達成しています。
📄 ライセンス
このREADMEにはライセンス情報が記載されていません。
📖 引用
@inproceedings{armengol-estape-etal-2021-multilingual,
title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
author = "Armengol-Estap{\'e}, Jordi and
Carrino, Casimiro Pio and
Rodriguez-Penagos, Carlos and
de Gibert Bonet, Ona and
Armentano-Oller, Carme and
Gonzalez-Agirre, Aitor and
Melero, Maite and
Villegas, Marta",
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.findings-acl.437",
doi = "10.18653/v1/2021.findings-acl.437",
pages = "4933--4946",
}
特別な感謝を Manuel Romero/@mrm8488 メンターとR.C.に送ります。
作成者: Jonatan Luna | LinkedIn