M

MD Judge V0.1

OpenSafetyLabによって開発
Mistral-7Bをファインチューニングした大規模言語モデルセキュリティガード、質問回答ペアの安全性評価を行う分類器として機能
ダウンロード数 480
リリース時間 : 2/7/2024

モデル概要

MD-JudgeはSALAD-Benchプロジェクト専用に開発されたセキュリティ評価モデルで、大規模言語モデルが生成するコンテンツの安全性を評価し、汎用セキュリティ評価ツールとして使用可能

モデル特徴

高性能セキュリティ評価
複数のセキュリティテストセットでLlamaGuard、GPT-3.5、GPT-4を上回る性能
多カテゴリーセキュリティ検出
有害コンテンツ、誤情報、社会経済的危害など6つの主要な不安全コンテンツ検出をサポート
SALAD-Bench向け最適化
質問回答ペアの安全性評価シナリオに特化して最適化

モデル能力

テキストセキュリティ評価
不安全コンテンツ分類
質問回答ペア安全性判断

使用事例

AIセキュリティ評価
大規模言語モデルセキュリティベンチマーク
異なる大規模言語モデルが生成するコンテンツの安全性を評価
SALAD-Benchテストセットで0.818-0.873のF1スコアを達成
コンテンツモデレーション
ユーザーとAIのインタラクションにおける不安全コンテンツを検出
有害会話データセットで0.644のF1スコアを達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase