D

Distilroberta Base Rejection V1

protectaiによって開発
distilroberta-baseを微調整したテキスト分類モデルで、大規模言語モデルが生成した拒否応答を識別するために使用されます。
ダウンロード数 74.91k
リリース時間 : 1/20/2024

モデル概要

このモデルは、コンテンツ審査に合格しなかったために大規模言語モデルが生成した拒否応答を検出するために専用に設計されており、入力を正常出力(0)または拒否応答(1)に分類します。

モデル特徴

高い精度での検出
評価セットで98.87%の精度と95.37%のF1値を達成しました。
軽量モデル
DistilRoBERTaの蒸留バージョンをベースにしており、高性能を維持しながら計算リソースの要求を削減します。
複数のデータセットでの学習
複数のオープンソースデータセットとRLHFデータを組み合わせて学習し、幅広い拒否応答パターンをカバーしています。

モデル能力

テキスト分類
拒否応答識別
コンテンツ審査支援

使用事例

コンテンツセキュリティ
LLM出力の監視
大規模言語モデルの出力を監視し、潜在的な拒否応答を識別します。
開発者がコンテンツ審査をトリガーする可能性のあるプロンプトを発見するのに役立ちます。
プロンプトエンジニアリング
プロンプト最適化のフィードバック
拒否応答を検出することで、プロンプトの設計を最適化するのに役立ちます。
LLMの応答成功率を向上させます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase