T

Toxic Prompt Roberta

Intelによって開発
RoBERTaベースのテキスト分類モデルで、会話システム内の毒性プロンプトや返答を検出するために使用されます
ダウンロード数 416
リリース時間 : 9/16/2024

モデル概要

このモデルはRoBERTaアーキテクチャに基づいており、ToxicChatとJigsaw Unintended Biasデータセットでファインチューニングされています。会話内の毒性コンテンツを識別するために特別に設計されており、AIシステムのセキュリティガードレールとして機能します。

モデル特徴

二重データセットファインチューニング
ToxicChatとJigsaw Unintended Biasデータセットで同時にファインチューニングを行い、検出精度を向上させます
倫理的配慮
人口サブグループの公平性を考慮したトレーニングにより、分類バイアスを軽減します
効率的な推論
最適化されたRoBERTaアーキテクチャに基づき、リアルタイム検出シナリオに適しています

モデル能力

毒性テキスト検出
会話コンテンツ監視
リアルタイムコンテンツ審査

使用事例

ユーザーエクスペリエンス監視
リアルタイム毒性検出
会話コンテンツを監視し、ユーザーの毒性行動を検出します
警告を発したり行動ガイダンスを提供したりできます
コンテンツ審査
自動審査システム
グループチャット内で毒性メッセージを自動削除したり、違反ユーザーをミュートしたりします
健全な会話環境を維持します
AIセキュリティ
チャットボット保護
チャットボットが毒性入力を応答するのを阻止します
AIシステムの悪用リスクを軽減します
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase