🚀 MetaHateBERT
MetaHateBERT是一個經過微調的BERT模型,專門用於檢測文本中的仇恨言論。它基於bert-base-uncased
架構,在自定義數據集上進行了微調,可實現二元文本分類,標籤為無仇恨
和仇恨
。
🚀 快速開始
推理
要使用此模型,你可以通過transformers
庫加載它:
from transformers import pipeline
classifier = pipeline("text-classification", model="irlab-udc/MetaHateBERT")
result = classifier("Your input text here")
print(result)
✨ 主要特性
- 仇恨言論檢測:該模型旨在檢測社交媒體評論、論壇和其他文本數據源中的仇恨言論。
- 內容審核:平臺可使用該模型自動標記潛在的有害內容。
📚 詳細文檔
預期用途
- 仇恨言論檢測:此模型用於檢測社交媒體評論、論壇和其他文本數據源中的仇恨言論。
- 內容審核:平臺可使用該模型自動標記潛在的有害內容。
侷限性
- 偏差:模型可能帶有訓練數據中存在的偏差。
- 誤報/漏報:模型並非完美,可能會誤分類某些實例。
- 領域特異性:在不同領域的性能可能有所不同。
📄 許可證
本模型使用的是Apache-2.0許可證。
🔗 相關信息
屬性 |
詳情 |
模型類型 |
文本分類 |
訓練數據 |
irlab-udc/metahate |
評估指標 |
準確率、F1值 |
📚 引用
如果使用此模型,請引用以下參考文獻:
@article{Piot_Martín-Rodilla_Parapar_2024,
title={MetaHate: A Dataset for Unifying Efforts on Hate Speech Detection},
volume={18},
url={https://ojs.aaai.org/index.php/ICWSM/article/view/31445},
DOI={10.1609/icwsm.v18i1.31445},
abstractNote={Hate speech represents a pervasive and detrimental form of online discourse, often manifested through an array of slurs, from hateful tweets to defamatory posts. As such speech proliferates, it connects people globally and poses significant social, psychological, and occasionally physical threats to targeted individuals and communities. Current computational linguistic approaches for tackling this phenomenon rely on labelled social media datasets for training. For unifying efforts, our study advances in the critical need for a comprehensive meta-collection, advocating for an extensive dataset to help counteract this problem effectively. We scrutinized over 60 datasets, selectively integrating those pertinent into MetaHate. This paper offers a detailed examination of existing collections, highlighting their strengths and limitations. Our findings contribute to a deeper understanding of the existing datasets, paving the way for training more robust and adaptable models. These enhanced models are essential for effectively combating the dynamic and complex nature of hate speech in the digital realm.},
number={1},
journal={Proceedings of the International AAAI Conference on Web and Social Media},
author={Piot, Paloma and Martín-Rodilla, Patricia and Parapar, Javier},
year={2024},
month={May},
pages={2025-2039}
}
🙏 致謝
作者感謝Horizon Europe研究與創新計劃根據Marie Skłodowska - Curie資助協議No. 101073351提供的資金支持。作者還感謝文化、教育、職業培訓和大學部(認證2019 - 2022 ED431G/01,ED431B 2022/33)和歐洲區域發展基金的財政支持,該基金認可拉科魯尼亞大學的CITIC信息通信技術研究中心為加利西亞大學系統的研究中心,以及項目PID2022 - 137061OB - C21(科學與創新部,國家研究機構,知識生成項目;由歐洲區域發展基金支持)。作者還感謝項目PLEC2021 - 007662(MCIN/AEI/10.13039/501100011033,科學與創新部,國家研究機構,恢復、轉型和韌性計劃,歐盟 - 下一代歐盟)的資金支持。