T

Toxicitymodel

由nicholasKluge開發
ToxicityModel是基於RoBERTa微調的模型,用於評估英語句子的毒性程度。
下載量 133.56k
發布時間 : 6/7/2023

模型概述

該模型用於檢測文本中的毒性內容,可作為強化學習人類反饋(RLHF)訓練的輔助獎勵模型。

模型特點

高準確率
在多個毒性檢測數據集上準確率超過91%
環保訓練
訓練過程碳排放僅為0.0002千克二氧化碳
獎勵模型集成
輸出邏輯可作為強化學習訓練中的懲罰/獎勵信號

模型能力

文本毒性檢測
內容安全評估
對話系統輔助

使用案例

內容審核
社交媒體內容過濾
自動識別並過濾社交媒體上的有毒評論
準確識別91%以上的有毒內容
對話系統
AI助手安全防護
防止AI助手生成或響應有毒內容
可有效區分有毒和無毒回覆
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase