M

MD Judge V0.1

由OpenSafetyLab開發
基於Mistral-7B微調的大型語言模型安全衛士,作為問答對安全性評估的分類器
下載量 480
發布時間 : 2/7/2024

模型概述

MD-Judge是專為SALAD-Bench項目開發的安全評估模型,用於評估大語言模型生成內容的安全性,可作為通用安全評估工具。

模型特點

高性能安全評估
在多個安全測試集上表現優於LlamaGuard、GPT-3.5和GPT-4
多類別安全檢測
支持6大類不安全內容檢測,包括毒性內容、錯誤信息、社會經濟危害等
專為SALAD-Bench優化
針對問答對安全性評估場景特別優化

模型能力

文本安全評估
不安全內容分類
問答對安全性判斷

使用案例

AI安全評估
大語言模型安全基準測試
用於評估不同大語言模型生成內容的安全性
在SALAD-Bench測試集上達到0.818-0.873的F1分數
內容審核
檢測用戶與AI交互中的不安全內容
在毒性對話數據集上達到0.644的F1分數
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase