🚀 加泰羅尼亞語網絡欺凌檢測微調模型(roberta-base-ca-finetuned-cyberbullying-catalan)
該模型是 BSC - TeMU/roberta-base-ca 的微調版本,通過抓取所有社交網絡(推特、油管等)生成的數據集進行訓練,用於檢測加泰羅尼亞語中的網絡欺凌行為。
它在評估集上取得了以下成績:
🚀 快速開始
本模型可用於加泰羅尼亞語網絡欺凌檢測,通過微調預訓練模型,能有效識別相關文本。
✨ 主要特性
- 基於預訓練模型微調,在加泰羅尼亞語網絡欺凌檢測任務上表現出色。
- 利用多社交網絡數據進行訓練,數據量大且豐富。
📦 安裝指南
暫未提及具體安裝步驟,可參考 Hugging Face 相關模型的通用安裝方法。
💻 使用示例
基礎用法
from transformers import pipeline
model_path = "JonatanGk/roberta-base-ca-finetuned-ciberbullying-catalan"
bullying_analysis = pipeline("text-classification", model=model_path, tokenizer=model_path)
bullying_analysis(
"Des que et vaig veure m'en vaig enamorar de tu."
)
[{'label': 'Not_bullying', 'score': 0.9996786117553711}]
bullying_analysis(
"Ets tan lletja que et donaven de menjar per sota la porta."
)
[{'label': 'Bullying', 'score': 0.9927878975868225}]
高級用法
可直接在 Colab 中運行示例代碼進行測試:
點擊在 Colab 中打開
📚 詳細文檔
訓練和評估數據
我使用了通過抓取多個社交網絡(推特、油管、Discord 等)生成的多個數據集的拼接來微調此模型。句子對的總數超過 41 萬條。在 roberta-base-bne-finetuned-cyberbullying-spanish 中使用了類似的訓練方法。
訓練過程
訓練超參數
訓練期間使用了以下超參數:
- 學習率:2e - 05
- 訓練批次大小:16
- 評估批次大小:16
- 隨機種子:42
- 優化器:Adam,其中 betas=(0.9, 0.999),epsilon = 1e - 08
- 學習率調度器類型:線性
- 訓練輪數:4
框架版本
- Transformers 4.10.3
- Pytorch 1.9.0+cu102
- Datasets 1.12.1
- Tokenizers 0.10.3
📄 許可證
原文檔未提及許可證信息,故跳過該章節。
🔧 技術細節
原文檔未提供足夠的技術實現細節,故跳過該章節。
📖 引用
@inproceedings{armengol-estape-etal-2021-multilingual,
title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
author = "Armengol-Estap{\'e}, Jordi and
Carrino, Casimiro Pio and
Rodriguez-Penagos, Carlos and
de Gibert Bonet, Ona and
Armentano-Oller, Carme and
Gonzalez-Agirre, Aitor and
Melero, Maite and
Villegas, Marta",
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.findings-acl.437",
doi = "10.18653/v1/2021.findings-acl.437",
pages = "4933--4946",
}
⚠️ 重要提示
特別感謝 Manuel Romero/@mrm8488 作為我的導師以及 R.C.
💡 使用建議
本模型由 Jonatan Luna 創建 | 領英