🚀 冒犯性言論檢測器
“冒犯性言論檢測器”是一個基於Deberta的文本分類模型,用於預測一段文本是否包含冒犯性語言。該模型在tweet_eval數據集上進行了微調,該數據集包含Twitter上的七個異構任務,均被構建為多類推文分類任務。本任務使用了其中的“冒犯性”子集。
🚀 快速開始
模型用途
冒犯性言論檢測器旨在作為檢測文本中冒犯性語言的工具,可用於內容審核、情感分析或社交媒體分析等應用場景。該模型可用於過濾或標記包含冒犯性語言的推文,或分析冒犯性語言的流行程度和模式。
使用示例
基礎用法
你可以使用cURL來訪問這個模型:
$ curl -X POST -H "Authorization: Bearer YOUR_API_KEY" -H "Content-Type: application/json" -d '{"inputs": "I love AutoTrain"}' https://api-inference.huggingface.co/models/KoalaAI/OffensiveSpeechDetector
高級用法
使用Python API:
from transformers import AutoModelForSequenceClassification, AutoTokenizer
model = AutoModelForSequenceClassification.from_pretrained("KoalaAI/OffensiveSpeechDetector", use_auth_token=True)
tokenizer = AutoTokenizer.from_pretrained("KoalaAI/OffensiveSpeechDetector", use_auth_token=True)
inputs = tokenizer("I love AutoTrain", return_tensors="pt")
outputs = model(**inputs)
✨ 主要特性
- 本模型是我們審核模型系列的一部分,該系列還包括其他可能令你感興趣的模型,如仇恨言論檢測器。我們認為這些模型可以相互配合,從而構建一個更強大的審核工具。
📚 詳細文檔
預期用途和侷限性
該模型雖有檢測冒犯性語言的能力,但也存在一些侷限性,用戶需要了解:
- 文本類型侷限:模型僅在推文上進行訓練和評估,推文是簡短且非正式的文本,可能包含俚語、縮寫、表情符號、話題標籤或用戶提及。模型在其他類型的文本(如新聞文章、論文或書籍)上的表現可能不佳。
- 語言侷限:模型僅在英文推文上進行訓練和評估,可能無法很好地泛化到其他語言或方言。
- 數據集侷限:模型基於tweet_eval數據集,該數據集在標註過程中可能存在一些偏差或錯誤。標籤由人工標註者分配,他們對於什麼構成冒犯性語言可能有不同的意見或標準。數據集也可能未涵蓋所有可能形式或語境的冒犯性語言,如諷刺、反語、幽默或委婉語。
- 模型本身侷限:模型是一個統計分類器,為每個標籤輸出一個概率分數。模型不提供其預測的任何解釋或理由,也可能會出錯或產生誤報或漏報。用戶不應在沒有進一步驗證或人工監督的情況下盲目信任模型的預測。
倫理考量
這是一個處理敏感且可能有害語言的模型。用戶在其應用程序或場景中使用或部署此模型時,應考慮其倫理影響和潛在風險。可能出現的一些倫理問題包括:
- 模型可能會強化或放大數據或社會中現有的偏差或刻板印象。例如,模型可能基於數據中的頻率或共現情況,將某些詞語或主題與冒犯性語言聯繫起來,而不考慮其背後的含義或意圖。這可能導致對某些群體或個人的不公平或不準確預測。
用戶應仔細考慮使用此模型的目的、背景和影響,並採取適當措施防止或減輕任何潛在危害。用戶還應尊重數據主體的隱私和同意,並遵守其所在司法管轄區的相關法律法規。
許可證
此模型遵循CodeML OpenRAIL - M 0.1許可證,這是BigCode OpenRAIL - M許可證的一個變體。該許可證允許你自由訪問、使用、修改和分發此模型及其衍生產品,用於研究、商業或非商業目的,但需遵守以下條件:
- 你必須在分發的模型的任何副本或衍生產品中包含許可證副本和模型的原始來源。
- 你不得將模型或其衍生產品用於任何非法、有害、濫用、歧視性或冒犯性目的,或導致或促成任何社會或環境危害。
- 你必須尊重用於訓練或評估模型的數據主體的隱私和同意,並遵守你所在司法管轄區的相關法律法規。
- 你必須承認模型及其衍生產品是“按原樣”提供的,沒有任何形式的保證或擔保,並且許可方不對你使用模型或其衍生產品所產生的任何損害或損失承擔責任。
通過訪問或使用此模型,即表示你同意受此許可證條款的約束。如果你不同意此許可證的條款,則不得訪問或使用此模型。
模型訓練信息
屬性 |
詳情 |
問題類型 |
多類分類 |
二氧化碳排放量(克) |
0.0108 |
驗證指標
指標 |
數值 |
損失 |
0.497 |
準確率 |
0.747 |
宏F1值 |
0.709 |
微F1值 |
0.747 |
加權F1值 |
0.741 |
宏精確率 |
0.722 |
微精確率 |
0.747 |
加權精確率 |
0.740 |
宏召回率 |
0.702 |
微召回率 |
0.747 |
加權召回率 |
0.747 |
📄 許可證
此模型遵循CodeML OpenRAIL - M 0.1許可證。具體許可內容見上文“詳細文檔 - 許可證”部分。