Text Moderation
基於Deberta-v3架構的英文文本分類模型,用於識別冒犯性內容
下載量 212.30k
發布時間 : 10/5/2023
模型概述
該模型用於預測文本是否包含可能被視為冒犯性的內容,包括色情、仇恨言論、暴力等9種分類標籤
模型特點
多類別分類
支持9種冒犯性內容分類,包括色情、仇恨言論、暴力等敏感內容識別
倫理考量
模型設計包含倫理風險評估,要求使用者審慎考慮部署場景
低碳訓練
訓練過程二氧化碳排放量僅0.0397克
模型能力
文本內容審核
冒犯性內容檢測
多標籤分類
使用案例
內容審核
社交媒體內容過濾
自動識別並過濾平臺上的冒犯性內容
準確率75%,可有效降低人工審核工作量
用戶生成內容監控
即時檢測評論、帖子等UGC中的不當內容
支持多種冒犯性內容類型識別
🚀 文本審核模型
本模型是一個基於Deberta - v3的文本分類模型,用於預測文本是否包含可能被視為冒犯性的內容。它為文本審核任務提供了高效且準確的解決方案。
🚀 快速開始
本模型是基於Deberta - v3的文本分類模型,用於預測文本是否包含可能被視為冒犯性的內容。它將文本分為以下幾類標籤:
類別 | 標籤 | 定義 |
---|---|---|
色情 | S |
旨在引起性興奮的內容,如對性行為的描述,或推廣性服務(不包括性教育和健康內容)。 |
仇恨 | H |
基於種族、性別、民族、宗教、國籍、性取向、殘疾狀況或種姓表達、煽動或宣揚仇恨的內容。 |
暴力 | V |
宣揚或美化暴力,或慶祝他人痛苦或羞辱的內容。 |
騷擾 | HR |
可能用於在現實生活中折磨或騷擾個人,或增加騷擾發生可能性的內容。 |
自殘 | SH |
宣揚、鼓勵或描繪自殘行為的內容,如自殺、割傷和飲食失調。 |
涉及未成年人的色情內容 | S3 |
包含18歲以下個人的色情內容。 |
仇恨/威脅 | H2 |
同時包含對目標群體的暴力或嚴重傷害的仇恨性內容。 |
暴力/血腥 | V2 |
以極端詳細的圖形方式描繪死亡、暴力或嚴重身體傷害的暴力內容。 |
正常 | OK |
無冒犯性內容 |
需要注意的是,該模型僅在英文文本上進行了訓練,對於非英文輸入可能表現不佳。
✨ 主要特性
- 多類別分類:能夠對文本進行多類別分類,涵蓋色情、仇恨、暴力等多種冒犯性內容類別。
- 基於Deberta - v3:利用Deberta - v3的強大語言理解能力,提高分類的準確性。
📦 安裝指南
本模型可通過以下方式使用:
使用cURL訪問
$ curl -X POST -H "Authorization: Bearer YOUR_API_KEY" -H "Content-Type: application/json" -d '{"inputs": "I love AutoTrain"}' https://api-inference.huggingface.co/models/KoalaAI/Text-Moderation
使用Python API
from transformers import AutoModelForSequenceClassification, AutoTokenizer
# 加載模型和分詞器
model = AutoModelForSequenceClassification.from_pretrained("KoalaAI/Text-Moderation")
tokenizer = AutoTokenizer.from_pretrained("KoalaAI/Text-Moderation")
# 在輸入上運行模型
inputs = tokenizer("I love AutoTrain", return_tensors="pt")
outputs = model(**inputs)
# 獲取預測的對數幾率
logits = outputs.logits
# 應用softmax函數獲取概率(分數)
probabilities = logits.softmax(dim=-1).squeeze()
# 獲取標籤
id2label = model.config.id2label
labels = [id2label[idx] for idx in range(len(probabilities))]
# 組合標籤和概率,然後排序
label_prob_pairs = list(zip(labels, probabilities))
label_prob_pairs.sort(key=lambda item: item[1], reverse=True)
# 打印排序後的結果
for label, probability in label_prob_pairs:
print(f"Label: {label} - Probability: {probability:.4f}")
💻 使用示例
基礎用法
from transformers import AutoModelForSequenceClassification, AutoTokenizer
# 加載模型和分詞器
model = AutoModelForSequenceClassification.from_pretrained("KoalaAI/Text-Moderation")
tokenizer = AutoTokenizer.from_pretrained("KoalaAI/Text-Moderation")
# 在輸入上運行模型
inputs = tokenizer("I love AutoTrain", return_tensors="pt")
outputs = model(**inputs)
# 獲取預測的對數幾率
logits = outputs.logits
# 應用softmax函數獲取概率(分數)
probabilities = logits.softmax(dim=-1).squeeze()
# 獲取標籤
id2label = model.config.id2label
labels = [id2label[idx] for idx in range(len(probabilities))]
# 組合標籤和概率,然後排序
label_prob_pairs = list(zip(labels, probabilities))
label_prob_pairs.sort(key=lambda item: item[1], reverse=True)
# 打印排序後的結果
for label, probability in label_prob_pairs:
print(f"Label: {label} - Probability: {probability:.4f}")
上述Python代碼的輸出如下:
Label: OK - Probability: 0.9840
Label: H - Probability: 0.0043
Label: SH - Probability: 0.0039
Label: V - Probability: 0.0019
Label: S - Probability: 0.0018
Label: HR - Probability: 0.0015
Label: V2 - Probability: 0.0011
Label: S3 - Probability: 0.0010
Label: H2 - Probability: 0.0006
📚 詳細文檔
倫理考量
這是一個處理敏感且可能有害語言的模型。用戶在其應用程序或場景中使用或部署此模型時,應考慮其倫理影響和潛在風險。可能出現的一些倫理問題包括:
- 模型可能會強化或放大數據或社會中現有的偏見或刻板印象。例如,模型可能基於數據中的頻率或共現情況,將某些詞語或主題與冒犯性語言關聯起來,而不考慮其背後的含義或意圖。這可能導致對某些群體或個人的預測不公平或不準確。
用戶應仔細考慮使用此模型的目的、背景和影響,並採取適當措施防止或減輕任何潛在危害。用戶還應尊重數據主體的隱私和同意,並遵守其所在司法管轄區的相關法律法規。
許可證
本模型遵循CodeML OpenRAIL - M 0.1許可證,這是BigCode OpenRAIL - M許可證的一個變體。此許可證允許您自由訪問、使用、修改和分發此模型及其派生產品,用於研究、商業或非商業目的,但需遵守以下條件:
- 您必須在分發的模型副本或派生產品中包含許可證副本和模型的原始來源。
- 您不得將模型或其派生產品用於任何非法、有害、濫用、歧視性或冒犯性目的,或導致或促成任何社會或環境危害。
- 您必須尊重用於訓練或評估模型的數據主體的隱私和同意,並遵守您所在司法管轄區的相關法律法規。
- 您必須承認模型及其派生產品是“按原樣”提供的,沒有任何形式的保證或擔保,並且許可方不對您使用模型或其派生產品所產生的任何損害或損失負責。
通過訪問或使用此模型,即表示您同意受此許可證條款的約束。如果您不同意此許可證的條款,則不得訪問或使用此模型。
訓練詳情
- 問題類型:多類別分類
- 二氧化碳排放量(克):0.0397
驗證指標
指標 | 值 |
---|---|
損失 | 0.848 |
準確率 | 0.749 (75%) |
宏F1值 | 0.326 |
微F1值 | 0.749 |
加權F1值 | 0.703 |
宏精確率 | 0.321 |
微精確率 | 0.749 |
加權精確率 | 0.671 |
宏召回率 | 0.349 |
微召回率 | 0.749 |
加權召回率 | 0.749 |
📄 許可證
本模型遵循CodeML OpenRAIL - M 0.1許可證,這是BigCode OpenRAIL - M許可證的一個變體。此許可證允許您自由訪問、使用、修改和分發此模型及其派生產品,用於研究、商業或非商業目的,但需遵守以下條件:
- 您必須在分發的模型副本或派生產品中包含許可證副本和模型的原始來源。
- 您不得將模型或其派生產品用於任何非法、有害、濫用、歧視性或冒犯性目的,或導致或促成任何社會或環境危害。
- 您必須尊重用於訓練或評估模型的數據主體的隱私和同意,並遵守您所在司法管轄區的相關法律法規。
- 您必須承認模型及其派生產品是“按原樣”提供的,沒有任何形式的保證或擔保,並且許可方不對您使用模型或其派生產品所產生的任何損害或損失負責。
通過訪問或使用此模型,即表示您同意受此許可證條款的約束。如果您不同意此許可證的條款,則不得訪問或使用此模型。
Distilbert Base Uncased Finetuned Sst 2 English
Apache-2.0
基於DistilBERT-base-uncased在SST-2情感分析數據集上微調的文本分類模型,準確率91.3%
文本分類 英語
D
distilbert
5.2M
746
Xlm Roberta Base Language Detection
MIT
基於XLM-RoBERTa的多語言檢測模型,支持20種語言的文本分類
文本分類
Transformers 支持多種語言

X
papluca
2.7M
333
Roberta Hate Speech Dynabench R4 Target
該模型通過動態生成數據集來改進在線仇恨檢測,專注於從最差案例中學習以提高檢測效果。
文本分類
Transformers 英語

R
facebook
2.0M
80
Bert Base Multilingual Uncased Sentiment
MIT
基於bert-base-multilingual-uncased微調的多語言情感分析模型,支持6種語言的商品評論情感分析
文本分類 支持多種語言
B
nlptown
1.8M
371
Emotion English Distilroberta Base
基於DistilRoBERTa-base微調的英文文本情感分類模型,可預測埃克曼六種基本情緒及中性類別。
文本分類
Transformers 英語

E
j-hartmann
1.1M
402
Robertuito Sentiment Analysis
基於RoBERTuito的西班牙語推文情感分析模型,支持POS(積極)/NEG(消極)/NEU(中性)三類情感分類
文本分類 西班牙語
R
pysentimiento
1.0M
88
Finbert Tone
FinBERT是一款基於金融通訊文本預訓練的BERT模型,專注於金融自然語言處理領域。finbert-tone是其微調版本,用於金融情感分析任務。
文本分類
Transformers 英語

F
yiyanghkust
998.46k
178
Roberta Base Go Emotions
MIT
基於RoBERTa-base的多標籤情感分類模型,在go_emotions數據集上訓練,支持28種情感標籤識別。
文本分類
Transformers 英語

R
SamLowe
848.12k
565
Xlm Emo T
XLM-EMO是一個基於XLM-T模型微調的多語言情感分析模型,支持19種語言,專門針對社交媒體文本的情感預測。
文本分類
Transformers 其他

X
MilaNLProc
692.30k
7
Deberta V3 Base Mnli Fever Anli
MIT
基於MultiNLI、Fever-NLI和ANLI數據集訓練的DeBERTa-v3模型,擅長零樣本分類和自然語言推理任務
文本分類
Transformers 英語

D
MoritzLaurer
613.93k
204
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98