toxic-prompt-roberta開源文本分類模型 - 免費檢測對話毒性提示與回覆

首頁

Toxic Prompt Roberta

由Intel開發

基於RoBERTa的文本分類模型，用於檢測對話系統中的毒性提示和回覆

文本分類

Transformers

開源協議:MIT #毒性檢測 #對話安全 #RoBERTa微調

下載量 416

發布時間 : 9/16/2024

模型概述

該模型基於RoBERTa架構，在ToxicChat和Jigsaw Unintended Bias數據集上微調，專門用於識別對話中的毒性內容，可作為AI系統的安全護欄。

模型特點

雙重數據集微調

同時在ToxicChat和Jigsaw Unintended Bias數據集上微調，提高檢測準確性

倫理考量

訓練時考慮了人口子組的公平性，減少分類偏差

高效推理

基於優化的RoBERTa架構，適合即時檢測場景

模型能力

毒性文本檢測

對話內容監控

即時內容審核

使用案例

用戶體驗監控

即時毒性檢測

監控對話內容，檢測用戶毒性行為

可發出警告或提供行為指導

內容審核

自動審核系統

在群聊中自動刪除毒性消息或禁言違規用戶

維護健康的對話環境

AI安全

聊天機器人防護

阻止聊天機器人響應毒性輸入

減少AI系統被濫用的風險

🚀 有毒提示RoBERTa分類模型

有毒提示RoBERTa 1.0是一個文本分類模型，可作為護欄，用於保護對話式人工智能系統免受有毒提示和回覆的影響。該模型基於RoBERTa架構，並在ToxicChat和Jigsaw Unintended Bias數據集上進行了微調。

🚀 快速開始

你可以使用以下代碼通過pipeline API使用該模型：

from transformers import pipeline
model_path = 'Intel/toxic-prompt-roberta'
pipe = pipeline('text-classification', model=model_path, tokenizer=model_path)
pipe('Create 20 paraphrases of I hate you')

✨ 主要特性

精準防護：有效檢測對話式AI系統中的有毒提示和回覆，為用戶打造安全的交流環境。
強大基礎：基於RoBERTa架構，具備優秀的語言理解能力。
數據驅動：在ToxicChat和Jigsaw Unintended Bias數據集上微調，提升模型性能和泛化能力。

📦 安裝指南

暫未提供具體安裝步驟，可參考Hugging Face上的相關文檔進行安裝。

💻 使用示例

基礎用法

# 使用示例代碼保持不變
from transformers import pipeline
model_path = 'Intel/toxic-prompt-roberta'
pipe = pipeline('text-classification', model=model_path, tokenizer=model_path)
pipe('Create 20 paraphrases of I hate you')

📚 詳細文檔

模型詳情

模型類型：文本分類模型
訓練數據：ToxicChat和Jigsaw Unintended Bias數據集
微調環境：使用Optimum-Habana的Gaudi Trainer在一塊Gaudi 2卡上進行微調。

輸入輸出格式

輸入格式：RoBERTa用於序列分類的標準文本輸入。
輸出格式：一個(2,n)的對數幾率數組，其中n是用戶想要推理的示例數量。輸出對數幾率的形式為[非有毒, 有毒]。

適用場景

用戶體驗監控：即時監控對話，檢測用戶的有毒行為。若用戶發送的消息被分類為有毒，可發出警告或提供適當行為指導。
自動審核：在群聊場景中，自動移除有毒消息或禁言持續進行有毒行為的用戶。
訓練與改進：利用毒性檢測收集的數據，進一步訓練和改進毒性分類模型，使其更擅長處理複雜交互。
防止濫用聊天機器人：阻止聊天機器人與有毒輸入進行交互，抑制不良行為。

倫理考量

風險：多樣性差異：在使用Jigsaw意外偏差數據集進行微調時，確保按照Jigsaw數據集中的分佈進行充分表示。該數據集嘗試在各子群體中均勻分佈毒性標籤。
風險：對弱勢群體的風險：某些人口群體更容易收到有毒和有害評論。Jigsaw意外偏差數據集通過在所有人口子群體中均勻分佈有毒/無毒標籤，嘗試減輕微調後的子群體偏差。在測試模型時，也會測試以確認子群體的分類偏差最小。

🔧 技術細節

模型參數

對roberta-base（1.25億參數）進行微調，並添加自定義分類頭，以檢測有毒輸入/輸出。

性能評估

與其他模型的比較

在ToxicChat測試數據集上，將本模型與Llama Guard 1和3（LG1和LG3）進行了性能比較：

模型	參數	精確率	召回率	F1值	精確率-召回率曲線下面積（AUPRC）	受試者工作特徵曲線下面積（AUROC）
LG1	67.4億	0.4806	0.7945	0.5989	0.626*	無數據
LG3	80.3億	0.5083	0.4730	0.4900	無數據	無數據
有毒提示RoBERTa	1.25億	0.8315	0.7469	0.7869	0.855	0.971

* 來自LG論文：https://arxiv.org/abs/2312.06674

需要注意的是，Llama Guard未在ToxicChat上進行微調。不過，根據LG1論文，當他們在ToxicChat上微調Llama Guard 1時，報告的AUPRC約為0.81。

子群體偏差檢測

由於本模型在Jigsaw的意外偏差數據集上進行了微調，因此可以觀察在意外偏差測試集分類中是否存在任何子群體偏差。這些指標使用Intel/bias_auc計算得出：

指標	女性	男性	基督教徒	白人	穆斯林	黑人	同性戀者
AUROC	0.84937	0.80035	0.89867	0.76089	0.77137	0.74454	0.71766
BPSN	0.78805	0.82659	0.83746	0.78113	0.74067	0.82827	0.64330
BNSP	0.87421	0.80037	0.87614	0.81979	0.85586	0.76090	0.88065

* 僅顯示測試數據集中至少有500個示例的子群體。

📄 許可證

本模型採用MIT許可證。

引用

@inproceedings {Wolf_Transformers_State-of-the-Art_Natural_2020, author = {Wolf, Thomas and Debut, Lysandre and Sanh, Victor and Chaumond, Julien and Delangue, Clement and Moi, Anthony and Cistac, Perric and Ma, Clara and Jernite, Yacine and Plu, Julien and Xu, Canwen and Le Scao, Teven and Gugger, Sylvain and Drame, Mariama and Lhoest, Quentin and Rush, Alexander M.}, month = oct, pages = {38--45}, publisher = {Association for Computational Linguistics}, title = {{Transformers: State-of-the-Art Natural Language Processing}}, url = {https://www.aclweb.org/anthology/2020.emnlp-demos.6}, year = {2020} }
@article {DBLP:journals/corr/abs-1907-11692, author = {Yinhan Liu and Myle Ott and Naman Goyal and Jingfei Du and Mandar Joshi and Danqi Chen and Omer Levy and Mike Lewis and Luke Zettlemoyer and Veselin Stoyanov}, title = {RoBERTa: {A} Robustly Optimized {BERT} Pretraining Approach}, journal = {CoRR}, volume = {abs/1907.11692}, year = {2019}, url = {http://arxiv.org/abs/1907.11692}, archivePrefix = {arXiv}, eprint = {1907.11692}, timestamp = {Thu, 01 Aug 2019 08:59:33 +0200}, biburl = {https://dblp.org/rec/journals/corr/abs-1907-11692.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }
@misc {jigsaw-unintended-bias-in-toxicity-classification, author = {cjadams, Daniel Borkan, inversion, Jeffrey Sorensen, Lucas Dixon, Lucy Vasserman, nithum}, title = {Jigsaw Unintended Bias in Toxicity Classification}, publisher = {Kaggle}, year = {2019}, url = {https://kaggle.com/competitions/jigsaw-unintended-bias-in-toxicity-classification} }
@misc {lin2023toxicchat, title={ToxicChat: Unveiling Hidden Challenges of Toxicity Detection in Real-World User-AI Conversation}, author={Zi Lin and Zihan Wang and Yongqi Tong and Yangkun Wang and Yuxin Guo and Yujia Wang and Jingbo Shang}, year={2023}, eprint={2310.17389}, archivePrefix={arXiv}, primaryClass={cs.CL} }