T

Toxic Prompt Roberta

Developed by Intel
RoBERTaベースのテキスト分類モデルで、会話システム内の毒性プロンプトや返答を検出するために使用されます
Downloads 416
Release Time : 9/16/2024

Model Overview

このモデルはRoBERTaアーキテクチャに基づいており、ToxicChatとJigsaw Unintended Biasデータセットでファインチューニングされています。会話内の毒性コンテンツを識別するために特別に設計されており、AIシステムのセキュリティガードレールとして機能します。

Model Features

二重データセットファインチューニング
ToxicChatとJigsaw Unintended Biasデータセットで同時にファインチューニングを行い、検出精度を向上させます
倫理的配慮
人口サブグループの公平性を考慮したトレーニングにより、分類バイアスを軽減します
効率的な推論
最適化されたRoBERTaアーキテクチャに基づき、リアルタイム検出シナリオに適しています

Model Capabilities

毒性テキスト検出
会話コンテンツ監視
リアルタイムコンテンツ審査

Use Cases

ユーザーエクスペリエンス監視
リアルタイム毒性検出
会話コンテンツを監視し、ユーザーの毒性行動を検出します
警告を発したり行動ガイダンスを提供したりできます
コンテンツ審査
自動審査システム
グループチャット内で毒性メッセージを自動削除したり、違反ユーザーをミュートしたりします
健全な会話環境を維持します
AIセキュリティ
チャットボット保護
チャットボットが毒性入力を応答するのを阻止します
AIシステムの悪用リスクを軽減します
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase