T

Toxicitymodel

nicholasKlugeによって開発
ToxicityModelはRoBERTaをファインチューニングしたモデルで、英語文の毒性レベルを評価します。
ダウンロード数 133.56k
リリース時間 : 6/7/2023

モデル概要

このモデルはテキスト内の毒性コンテンツを検出するために使用され、強化学習人間フィードバック(RLHF)トレーニングの補助報酬モデルとして機能します。

モデル特徴

高精度
複数の毒性検出データセットで91%以上の精度を達成
環境に優しいトレーニング
トレーニング過程のCO2排出量はわずか0.0002キログラム
報酬モデル統合
出力ロジックを強化学習トレーニングのペナルティ/報酬信号として使用可能

モデル能力

テキスト毒性検出
コンテンツ安全性評価
対話システム補助

使用事例

コンテンツ審査
ソーシャルメディアコンテンツフィルタリング
ソーシャルメディア上の有害コメントを自動識別・フィルタリング
有害コンテンツの91%以上を正確に識別
対話システム
AIアシスタント安全保護
AIアシスタントが有害コンテンツを生成・応答するのを防止
有害返答と無害返答を効果的に区別可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase