Bloomz-3b-guardrail開源文本分類模型 - 免費檢測五種模式文本毒性

首頁

Bloomz 3b Guardrail

由cmarkea開發

Bloomz-3b-guardrail是一款基於Bloomz-3b-sft-chat微調的文本分類模型，用於檢測五種模式的文本毒性。

文本分類

Transformers

支持多種語言開源協議:Openrail #多模態毒性檢測 #高相關性評分 #英法雙語支持

下載量 249

發布時間 : 12/1/2023

模型概述

該模型旨在監控和控制生成模型的輸出，檢測文本在淫穢內容、色情明示內容、身份攻擊、侮辱和威脅五種模式下的毒性程度。

模型特點

多模式毒性檢測

能夠檢測文本在淫穢內容、色情明示內容、身份攻擊、侮辱和威脅五種模式下的毒性。

高相關性

模型輸出與評委分數高度相關，皮爾遜相關性約為80。

多語言支持

支持英語和法語的毒性檢測。

模型能力

文本毒性檢測

多模式分類

多語言處理

使用案例

內容審核

社交媒體內容監控

用於檢測社交媒體上的有害內容，如侮辱、威脅等。

能夠準確識別多種毒性模式，幫助平臺及時處理違規內容。

生成模型輸出控制

監控生成模型的輸出，確保其不產生有害內容。

有效降低生成內容的毒性，提升用戶體驗。

🚀 Bloomz-3b-guardrail模型

Bloomz-3b-guardrail是一款文本分類模型，它基於Bloomz-3b-sft-chat模型進行微調。該模型旨在以五種模式檢測文本的毒性，可用於監控和控制生成模型的輸出，以及衡量生成內容的毒性程度。

✨ 主要特性

Bloomz-3b-guardrail模型能夠檢測文本在以下五種模式下的毒性：

淫穢內容（Obscene）：冒犯性、不適當或道德上不合適的內容，尤其違反社會規範或道德標準。
色情明示內容（Sexual explicit）：清晰詳細地呈現性方面的內容。
身份攻擊（Identity attack）：基於個人身份特徵（如種族、性別、性取向、宗教、民族等）對他人進行攻擊、詆譭或騷擾的內容。
侮辱（Insult）：用於攻擊或詆譭他人的冒犯性、不尊重或傷人的內容。
威脅（Threat）：對個人構成直接威脅的內容。

📦 安裝指南

文檔未提及安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

from transformers import pipeline

guardrail = pipeline("text-classification", "cmarkea/bloomz-3b-guardrail")

list_text: List[str] = [...]
result = guardrail(
    list_text,
    return_all_scores=True, # Crucial for assessing all modalities of toxicity!
    function_to_apply='sigmoid' # To ensure obtaining a score between 0 and 1!
)

📚 詳細文檔

訓練情況

訓練數據集：訓練數據集包含500k條英文評論和500k條法文評論（由谷歌翻譯翻譯），每條評論都標註了毒性嚴重程度的概率。該數據集由Jigsaw提供，作為Kaggle競賽Jigsaw Unintended Bias in Toxicity Classification的一部分。
優化目標：由於分數代表毒性模式的概率，因此選擇了交叉熵類型的優化目標： $$loss=l_{\mathrm{obscene}}+l_{\mathrm{sexual_explicit}}+l_{\mathrm{identity_attack}}+l_{\mathrm{insult}}+l_{\mathrm{threat}}$$ 其中 $$l_i=\frac{-1}{\vert\mathcal{O}\vert}\sum_{o\in\mathcal{O}}\mathrm{score}{i,o}\log(\sigma(\mathrm{logit}{i,o}))+(\mathrm{score}{i,o}-1)\log(1-\sigma(\mathrm{logit}{i,o}))$$ 這裡$\sigma$是sigmoid函數，$\mathcal{O}$表示學習觀測集。

基準測試

皮爾遜相關性

選擇皮爾遜互相關性作為衡量指標，該指標範圍從 -1 到 1，0 表示無相關性，-1 表示完全負相關，1 表示完全正相關。目標是定量衡量模型分數與評委對730條訓練中未見過的評論所分配分數之間的相關性。

模型	語言	淫穢內容 (x100)	色情明示內容 (x100)	身份攻擊 (x100)	侮辱 (x100)	威脅 (x100)	平均值
Bloomz-560m-guardrail	法語	64	74	72	70	58	68
Bloomz-560m-guardrail	英語	63	63	62	70	51	62
Bloomz-3b-guardrail	法語	71	82	84	77	77	78
Bloomz-3b-guardrail	英語	74	76	79	76	79	77

560m模型的相關性約為65，3b模型的相關性約為80，模型輸出與評委分數高度相關。

其他指標

選擇不同模式的最大值得到的分數與原始數據集的目標毒性非常接近，相關性為0.976，平均絕對誤差為0.013±0.04。因此，這種方法可以作為評估模型整體性能的可靠近似，超越了罕見的毒性模式。以毒性閾值 ≥ 0.5 來創建目標，在730個觀測值中有240個正例。因此，將確定精確率 - 召回率曲線下面積（PR AUC）、受試者工作特徵曲線下面積（ROC AUC）、準確率和F1分數。

模型	語言	PR AUC (%)	ROC AUC (%)	準確率 (%)	F1分數 (%)
Bloomz-560m-guardrail	法語	77	85	78	60
Bloomz-560m-guardrail	英語	77	84	79	62
Bloomz-3b-guardrail	法語	82	89	84	72
Bloomz-3b-guardrail	英語	80	88	82	70

🔧 技術細節

該模型基於Bloomz-3b-sft-chat進行微調，使用特定的訓練數據集和優化目標，通過基準測試中的多種指標來評估模型性能。

📄 許可證

本模型使用的許可證為：bigscience-bloom-rail-1.0

📖 引用

@online{DeBloomzGuard,
  AUTHOR = {Cyrile Delestre},
  ORGANIZATION = {Cr{\'e}dit Mutuel Ark{\'e}a},
  URL = {https://huggingface.co/cmarkea/bloomz-3b-guardrail},
  YEAR = {2023},
  KEYWORDS = {NLP ; Transformers ; LLM ; Bloomz},
}