🚀 HATE - ITA Base
HATE - ITA是一個用於意大利社交媒體文本的二元仇恨言論分類模型,能夠有效識別相關文本中的仇恨言論。
🚀 快速開始
模型使用示例
from transformers import pipeline
classifier = pipeline("text-classification",model='MilaNLProc/hate-ita',top_k=2)
prediction = classifier("ti odio")
print(prediction)
✨ 主要特性
- 跨語言訓練:HATE - ITA是一組多語言模型,在大量英語數據和可用的意大利語數據集上進行訓練,比單語言模型表現更好,並且能很好地適應特定語言的侮辱性詞彙。
- 有效檢測:能夠對意大利社交媒體文本進行二元仇恨言論分類,助力及時應對網絡仇恨言論這一危險現象。
📚 詳細文檔
摘要
網絡仇恨言論是一種危險的現象,能夠(也應該)得到及時妥善的應對。雖然自然語言處理已成功用於此目的,但許多研究工作都針對英語展開。這種選擇嚴重限制了非英語語言的分類能力。在本文中,我們測試了幾種用於識別意大利語文本中仇恨言論的學習框架。我們發佈了HATE - ITA,這是一組在大量英語數據和可用的意大利語數據集上訓練的多語言模型。HATE - ITA的表現優於單語言模型,並且似乎也能很好地適應特定語言的侮辱性詞彙。我們相信我們的研究結果將鼓勵其他中低資源社區的研究,併為意大利社區提供有價值的基準測試工具。
模型
該模型是XLM - T模型的微調版本。
模型 |
下載鏈接 |
hate - ita |
[鏈接](https://huggingface.co/MilaNLProc/hate - ita) |
hate - ita - xlm - r - base |
[鏈接](https://huggingface.co/MilaNLProc/hate - ita - xlm - r - base) |
hate - ita - xlm - r - large |
[鏈接](https://huggingface.co/MilaNLProc/hate - ita - xlm - r - large) |
結果
該模型在測試集上的F1值為0.83。
引用
如果您在項目中使用此模型,請使用以下BibTeX條目:
@inproceedings{nozza - etal - 2022 - hate - ita,
title = {{HATE - ITA}: Hate Speech Detection in Italian Social Media Text},
author = "Nozza, Debora and Bianchi, Federico and Attanasio, Giuseppe",
booktitle = "Proceedings of the 6th Workshop on Online Abuse and Harms",
year = "2022",
publisher = "Association for Computational Linguistics"
}
倫理聲明
雖然這項工作的結果很有前景,但不應將其解釋為對意大利語仇恨言論檢測性能的最終評估。我們不確定我們的模型是否能在不同的目標和類別中保持穩定和公平的精度。HATE - ITA可能會忽略一些敏感細節,從業者應謹慎對待。
📄 許可證
[GNU GPLv3](https://choosealicense.com/licenses/gpl - 3.0/)
作者信息
Debora Nozza •
Federico Bianchi •
Giuseppe Attanasio
模型示例

測試示例
示例標題 |
測試文本 |
Hate Speech Classification 1 |
"Ci sono dei bellissimi capibara!" |
Hate Speech Classification 2 |
"Sei una testa di cazzo!!" |
Hate Speech Classification 3 |
"Ti odio!" |