roberta-base-ca-finetuned-cyberbullying-catalan開源模型 - 精準檢測加泰羅尼亞語網絡暴力

首頁

Roberta Base Ca Finetuned Cyberbullying Catalan

由JonatanGk開發

基於RoBERTa架構的加泰羅尼亞語網絡暴力檢測模型，在41萬條社交媒體數據上微調

文本分類

Transformers

其他#加泰羅尼亞語網絡暴力檢測 #高準確率(96.65%)#社交媒體內容分析

下載量 18

發布時間 : 3/2/2022

模型概述

該模型專門用於檢測加泰羅尼亞語中的網絡暴力內容，基於RoBERTa架構在社交媒體數據上微調而成

模型特點

高準確率

在評估集上達到96.65%的準確率

大規模訓練數據

使用超過41萬條來自Twitter、YouTube等社交媒體的加泰羅尼亞語句對進行訓練

專門針對網絡暴力

專門優化用於檢測加泰羅尼亞語中的網絡暴力內容

模型能力

加泰羅尼亞語文本分類

網絡暴力內容檢測

社交媒體內容分析

使用案例

內容審核

社交媒體內容過濾

自動檢測並過濾社交媒體上的網絡暴力內容

可識別96.65%的網絡暴力內容

在線社區管理

幫助論壇和在線社區管理員識別不當言論

教育研究

網絡暴力研究

用於研究加泰羅尼亞語網絡暴力的語言特徵和模式

🚀 加泰羅尼亞語網絡欺凌檢測微調模型（roberta-base-ca-finetuned-cyberbullying-catalan）

該模型是 BSC - TeMU/roberta-base-ca 的微調版本，通過抓取所有社交網絡（推特、油管等）生成的數據集進行訓練，用於檢測加泰羅尼亞語中的網絡欺凌行為。

它在評估集上取得了以下成績：

損失值：0.1508
準確率：0.9665

🚀 快速開始

本模型可用於加泰羅尼亞語網絡欺凌檢測，通過微調預訓練模型，能有效識別相關文本。

✨ 主要特性

基於預訓練模型微調，在加泰羅尼亞語網絡欺凌檢測任務上表現出色。
利用多社交網絡數據進行訓練，數據量大且豐富。

📦 安裝指南

暫未提及具體安裝步驟，可參考 Hugging Face 相關模型的通用安裝方法。

💻 使用示例

基礎用法

from transformers import pipeline

model_path = "JonatanGk/roberta-base-ca-finetuned-ciberbullying-catalan"
bullying_analysis = pipeline("text-classification", model=model_path, tokenizer=model_path)

bullying_analysis(
    "Des que et vaig veure m'en vaig enamorar de tu."
    )
    
# Output:
[{'label': 'Not_bullying', 'score': 0.9996786117553711}]

bullying_analysis(
    "Ets tan lletja que et donaven de menjar per sota la porta."
    )
    
# Output:
[{'label': 'Bullying', 'score': 0.9927878975868225}]

高級用法

可直接在 Colab 中運行示例代碼進行測試：點擊在 Colab 中打開

📚 詳細文檔

訓練和評估數據

我使用了通過抓取多個社交網絡（推特、油管、Discord 等）生成的多個數據集的拼接來微調此模型。句子對的總數超過 41 萬條。在 roberta-base-bne-finetuned-cyberbullying-spanish 中使用了類似的訓練方法。

訓練過程

訓練超參數

訓練期間使用了以下超參數：

學習率：2e - 05
訓練批次大小：16
評估批次大小：16
隨機種子：42
優化器：Adam，其中 betas=(0.9, 0.999)，epsilon = 1e - 08
學習率調度器類型：線性
訓練輪數：4

框架版本

Transformers 4.10.3
Pytorch 1.9.0+cu102
Datasets 1.12.1
Tokenizers 0.10.3

📄 許可證

原文檔未提及許可證信息，故跳過該章節。

🔧 技術細節

原文檔未提供足夠的技術實現細節，故跳過該章節。

📖 引用

@inproceedings{armengol-estape-etal-2021-multilingual,
    title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
    author = "Armengol-Estap{\'e}, Jordi  and
      Carrino, Casimiro Pio  and
      Rodriguez-Penagos, Carlos  and
      de Gibert Bonet, Ona  and
      Armentano-Oller, Carme  and
      Gonzalez-Agirre, Aitor  and
      Melero, Maite  and
      Villegas, Marta",
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.findings-acl.437",
    doi = "10.18653/v1/2021.findings-acl.437",
    pages = "4933--4946",
}