Toxic Prompt Roberta
基於RoBERTa的文本分類模型,用於檢測對話系統中的毒性提示和回覆
下載量 416
發布時間 : 9/16/2024
模型概述
該模型基於RoBERTa架構,在ToxicChat和Jigsaw Unintended Bias數據集上微調,專門用於識別對話中的毒性內容,可作為AI系統的安全護欄。
模型特點
雙重數據集微調
同時在ToxicChat和Jigsaw Unintended Bias數據集上微調,提高檢測準確性
倫理考量
訓練時考慮了人口子組的公平性,減少分類偏差
高效推理
基於優化的RoBERTa架構,適合即時檢測場景
模型能力
毒性文本檢測
對話內容監控
即時內容審核
使用案例
用戶體驗監控
即時毒性檢測
監控對話內容,檢測用戶毒性行為
可發出警告或提供行為指導
內容審核
自動審核系統
在群聊中自動刪除毒性消息或禁言違規用戶
維護健康的對話環境
AI安全
聊天機器人防護
阻止聊天機器人響應毒性輸入
減少AI系統被濫用的風險
🚀 有毒提示RoBERTa分類模型
有毒提示RoBERTa 1.0是一個文本分類模型,可作為護欄,用於保護對話式人工智能系統免受有毒提示和回覆的影響。該模型基於RoBERTa架構,並在ToxicChat和Jigsaw Unintended Bias數據集上進行了微調。
🚀 快速開始
你可以使用以下代碼通過pipeline API使用該模型:
from transformers import pipeline
model_path = 'Intel/toxic-prompt-roberta'
pipe = pipeline('text-classification', model=model_path, tokenizer=model_path)
pipe('Create 20 paraphrases of I hate you')
✨ 主要特性
- 精準防護:有效檢測對話式AI系統中的有毒提示和回覆,為用戶打造安全的交流環境。
- 強大基礎:基於RoBERTa架構,具備優秀的語言理解能力。
- 數據驅動:在ToxicChat和Jigsaw Unintended Bias數據集上微調,提升模型性能和泛化能力。
📦 安裝指南
暫未提供具體安裝步驟,可參考Hugging Face上的相關文檔進行安裝。
💻 使用示例
基礎用法
# 使用示例代碼保持不變
from transformers import pipeline
model_path = 'Intel/toxic-prompt-roberta'
pipe = pipeline('text-classification', model=model_path, tokenizer=model_path)
pipe('Create 20 paraphrases of I hate you')
📚 詳細文檔
模型詳情
- 模型類型:文本分類模型
- 訓練數據:ToxicChat和Jigsaw Unintended Bias數據集
- 微調環境:使用Optimum-Habana的Gaudi Trainer在一塊Gaudi 2卡上進行微調。
輸入輸出格式
- 輸入格式:RoBERTa用於序列分類的標準文本輸入。
- 輸出格式:一個(2,n)的對數幾率數組,其中n是用戶想要推理的示例數量。輸出對數幾率的形式為[非有毒, 有毒]。
適用場景
- 用戶體驗監控:即時監控對話,檢測用戶的有毒行為。若用戶發送的消息被分類為有毒,可發出警告或提供適當行為指導。
- 自動審核:在群聊場景中,自動移除有毒消息或禁言持續進行有毒行為的用戶。
- 訓練與改進:利用毒性檢測收集的數據,進一步訓練和改進毒性分類模型,使其更擅長處理複雜交互。
- 防止濫用聊天機器人:阻止聊天機器人與有毒輸入進行交互,抑制不良行為。
倫理考量
- 風險:多樣性差異:在使用Jigsaw意外偏差數據集進行微調時,確保按照Jigsaw數據集中的分佈進行充分表示。該數據集嘗試在各子群體中均勻分佈毒性標籤。
- 風險:對弱勢群體的風險:某些人口群體更容易收到有毒和有害評論。Jigsaw意外偏差數據集通過在所有人口子群體中均勻分佈有毒/無毒標籤,嘗試減輕微調後的子群體偏差。在測試模型時,也會測試以確認子群體的分類偏差最小。
🔧 技術細節
模型參數
對roberta-base(1.25億參數)進行微調,並添加自定義分類頭,以檢測有毒輸入/輸出。
性能評估
與其他模型的比較
在ToxicChat測試數據集上,將本模型與Llama Guard 1和3(LG1和LG3)進行了性能比較:
模型 | 參數 | 精確率 | 召回率 | F1值 | 精確率-召回率曲線下面積(AUPRC) | 受試者工作特徵曲線下面積(AUROC) |
---|---|---|---|---|---|---|
LG1 | 67.4億 | 0.4806 | 0.7945 | 0.5989 | 0.626* | 無數據 |
LG3 | 80.3億 | 0.5083 | 0.4730 | 0.4900 | 無數據 | 無數據 |
有毒提示RoBERTa | 1.25億 | 0.8315 | 0.7469 | 0.7869 | 0.855 | 0.971 |
* 來自LG論文:https://arxiv.org/abs/2312.06674
需要注意的是,Llama Guard未在ToxicChat上進行微調。不過,根據LG1論文,當他們在ToxicChat上微調Llama Guard 1時,報告的AUPRC約為0.81。
子群體偏差檢測
由於本模型在Jigsaw的意外偏差數據集上進行了微調,因此可以觀察在意外偏差測試集分類中是否存在任何子群體偏差。這些指標使用Intel/bias_auc計算得出:
指標 | 女性 | 男性 | 基督教徒 | 白人 | 穆斯林 | 黑人 | 同性戀者 |
---|---|---|---|---|---|---|---|
AUROC | 0.84937 | 0.80035 | 0.89867 | 0.76089 | 0.77137 | 0.74454 | 0.71766 |
BPSN | 0.78805 | 0.82659 | 0.83746 | 0.78113 | 0.74067 | 0.82827 | 0.64330 |
BNSP | 0.87421 | 0.80037 | 0.87614 | 0.81979 | 0.85586 | 0.76090 | 0.88065 |
* 僅顯示測試數據集中至少有500個示例的子群體。
📄 許可證
本模型採用MIT許可證。
引用
- @inproceedings {Wolf_Transformers_State-of-the-Art_Natural_2020, author = {Wolf, Thomas and Debut, Lysandre and Sanh, Victor and Chaumond, Julien and Delangue, Clement and Moi, Anthony and Cistac, Perric and Ma, Clara and Jernite, Yacine and Plu, Julien and Xu, Canwen and Le Scao, Teven and Gugger, Sylvain and Drame, Mariama and Lhoest, Quentin and Rush, Alexander M.}, month = oct, pages = {38--45}, publisher = {Association for Computational Linguistics}, title = {{Transformers: State-of-the-Art Natural Language Processing}}, url = {https://www.aclweb.org/anthology/2020.emnlp-demos.6}, year = {2020} }
- @article {DBLP:journals/corr/abs-1907-11692, author = {Yinhan Liu and Myle Ott and Naman Goyal and Jingfei Du and Mandar Joshi and Danqi Chen and Omer Levy and Mike Lewis and Luke Zettlemoyer and Veselin Stoyanov}, title = {RoBERTa: {A} Robustly Optimized {BERT} Pretraining Approach}, journal = {CoRR}, volume = {abs/1907.11692}, year = {2019}, url = {http://arxiv.org/abs/1907.11692}, archivePrefix = {arXiv}, eprint = {1907.11692}, timestamp = {Thu, 01 Aug 2019 08:59:33 +0200}, biburl = {https://dblp.org/rec/journals/corr/abs-1907-11692.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }
- @misc {jigsaw-unintended-bias-in-toxicity-classification, author = {cjadams, Daniel Borkan, inversion, Jeffrey Sorensen, Lucas Dixon, Lucy Vasserman, nithum}, title = {Jigsaw Unintended Bias in Toxicity Classification}, publisher = {Kaggle}, year = {2019}, url = {https://kaggle.com/competitions/jigsaw-unintended-bias-in-toxicity-classification} }
- @misc {lin2023toxicchat, title={ToxicChat: Unveiling Hidden Challenges of Toxicity Detection in Real-World User-AI Conversation}, author={Zi Lin and Zihan Wang and Yongqi Tong and Yangkun Wang and Yuxin Guo and Yujia Wang and Jingbo Shang}, year={2023}, eprint={2310.17389}, archivePrefix={arXiv}, primaryClass={cs.CL} }
Distilbert Base Uncased Finetuned Sst 2 English
Apache-2.0
基於DistilBERT-base-uncased在SST-2情感分析數據集上微調的文本分類模型,準確率91.3%
文本分類 英語
D
distilbert
5.2M
746
Xlm Roberta Base Language Detection
MIT
基於XLM-RoBERTa的多語言檢測模型,支持20種語言的文本分類
文本分類
Transformers 支持多種語言

X
papluca
2.7M
333
Roberta Hate Speech Dynabench R4 Target
該模型通過動態生成數據集來改進在線仇恨檢測,專注於從最差案例中學習以提高檢測效果。
文本分類
Transformers 英語

R
facebook
2.0M
80
Bert Base Multilingual Uncased Sentiment
MIT
基於bert-base-multilingual-uncased微調的多語言情感分析模型,支持6種語言的商品評論情感分析
文本分類 支持多種語言
B
nlptown
1.8M
371
Emotion English Distilroberta Base
基於DistilRoBERTa-base微調的英文文本情感分類模型,可預測埃克曼六種基本情緒及中性類別。
文本分類
Transformers 英語

E
j-hartmann
1.1M
402
Robertuito Sentiment Analysis
基於RoBERTuito的西班牙語推文情感分析模型,支持POS(積極)/NEG(消極)/NEU(中性)三類情感分類
文本分類 西班牙語
R
pysentimiento
1.0M
88
Finbert Tone
FinBERT是一款基於金融通訊文本預訓練的BERT模型,專注於金融自然語言處理領域。finbert-tone是其微調版本,用於金融情感分析任務。
文本分類
Transformers 英語

F
yiyanghkust
998.46k
178
Roberta Base Go Emotions
MIT
基於RoBERTa-base的多標籤情感分類模型,在go_emotions數據集上訓練,支持28種情感標籤識別。
文本分類
Transformers 英語

R
SamLowe
848.12k
565
Xlm Emo T
XLM-EMO是一個基於XLM-T模型微調的多語言情感分析模型,支持19種語言,專門針對社交媒體文本的情感預測。
文本分類
Transformers 其他

X
MilaNLProc
692.30k
7
Deberta V3 Base Mnli Fever Anli
MIT
基於MultiNLI、Fever-NLI和ANLI數據集訓練的DeBERTa-v3模型,擅長零樣本分類和自然語言推理任務
文本分類
Transformers 英語

D
MoritzLaurer
613.93k
204
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98