Hate-ita開源仇恨言論分類模型 - 精準識別意大利社交媒體侮辱冒犯語言

首頁

Hate Ita

由MilaNLProc開發

HATE-ITA是一個針對意大利社交媒體文本的二元仇恨言論分類模型，基於XLM-T模型微調，專注於識別侮辱性、仇恨和冒犯性語言。

文本分類

Transformers

其他開源協議:Gpl-3.0 #意大利語仇恨言論檢測 #多語言模型微調 #社交媒體文本分類

下載量 50

發布時間 : 6/8/2022

模型概述

該模型用於檢測意大利語文本中的仇恨言論，適用於社交媒體內容審核等場景，能有效識別侮辱性、仇恨和冒犯性語言。

模型特點

多語言優勢

基於大量英語數據和現有意大利語數據集訓練，表現優於單語模型。

語言適應性

能較好適應意大利語特有的侮辱詞彙和表達方式。

高效檢測

在測試集上F1得分達到0.83，具有較高的檢測準確性。

模型能力

意大利語文本分類

仇恨言論檢測

侮辱性語言識別

冒犯性內容識別

使用案例

內容審核

社交媒體內容過濾

自動檢測並過濾社交媒體上的仇恨言論和侮辱性內容。

提高平臺內容安全性，減少有害信息傳播。

在線社區管理

輔助管理員識別和處理社區中的冒犯性言論。

維護社區和諧，減少用戶衝突。

🚀 HATE - ITA Base

HATE - ITA是一個用於意大利社交媒體文本的二元仇恨言論分類模型，能夠有效識別相關文本中的仇恨言論。

🚀 快速開始

模型使用示例

from transformers import pipeline
classifier = pipeline("text-classification",model='MilaNLProc/hate-ita',top_k=2)
prediction = classifier("ti odio")
print(prediction)

✨ 主要特性

跨語言訓練：HATE - ITA是一組多語言模型，在大量英語數據和可用的意大利語數據集上進行訓練，比單語言模型表現更好，並且能很好地適應特定語言的侮辱性詞彙。
有效檢測：能夠對意大利社交媒體文本進行二元仇恨言論分類，助力及時應對網絡仇恨言論這一危險現象。

📚 詳細文檔

摘要

網絡仇恨言論是一種危險的現象，能夠（也應該）得到及時妥善的應對。雖然自然語言處理已成功用於此目的，但許多研究工作都針對英語展開。這種選擇嚴重限制了非英語語言的分類能力。在本文中，我們測試了幾種用於識別意大利語文本中仇恨言論的學習框架。我們發佈了HATE - ITA，這是一組在大量英語數據和可用的意大利語數據集上訓練的多語言模型。HATE - ITA的表現優於單語言模型，並且似乎也能很好地適應特定語言的侮辱性詞彙。我們相信我們的研究結果將鼓勵其他中低資源社區的研究，併為意大利社區提供有價值的基準測試工具。

模型

該模型是XLM - T模型的微調版本。

模型	下載鏈接
`hate - ita`	[鏈接](https://huggingface.co/MilaNLProc/hate - ita)
`hate - ita - xlm - r - base`	[鏈接](https://huggingface.co/MilaNLProc/hate - ita - xlm - r - base)
`hate - ita - xlm - r - large`	[鏈接](https://huggingface.co/MilaNLProc/hate - ita - xlm - r - large)

結果

該模型在測試集上的F1值為0.83。

引用

如果您在項目中使用此模型，請使用以下BibTeX條目：

@inproceedings{nozza - etal - 2022 - hate - ita,
    title = {{HATE - ITA}: Hate Speech Detection in Italian Social Media Text},
    author = "Nozza, Debora and Bianchi, Federico and Attanasio, Giuseppe",
    booktitle = "Proceedings of the 6th Workshop on Online Abuse and Harms",
    year = "2022",
    publisher = "Association for Computational Linguistics"
}

倫理聲明

雖然這項工作的結果很有前景，但不應將其解釋為對意大利語仇恨言論檢測性能的最終評估。我們不確定我們的模型是否能在不同的目標和類別中保持穩定和公平的精度。HATE - ITA可能會忽略一些敏感細節，從業者應謹慎對待。

📄 許可證

[GNU GPLv3](https://choosealicense.com/licenses/gpl - 3.0/)

作者信息

Debora Nozza • Federico Bianchi • Giuseppe Attanasio

模型示例

![模型示例](https://raw.githubusercontent.com/MilaNLProc/hate - ita/main/hateita.png?token=GHSAT0AAAAAABTEBAJ4PNDWAMU3KKIGUOCSYWG4IBA)

測試示例

示例標題	測試文本
Hate Speech Classification 1	"Ci sono dei bellissimi capibara!"
Hate Speech Classification 2	"Sei una testa di cazzo!!"
Hate Speech Classification 3	"Ti odio!"