G

Guardreasoner 8B

由yueliu1999開發
GuardReasoner 8B是基於meta-llama/Llama-3.1-8B微調的模型,專注於推理式LLM安全防護
下載量 480
發布時間 : 1/30/2025

模型概述

該模型通過R-SFT和HS-DPO微調技術,專門用於分析人類與AI交互的安全性,執行有害性檢測和拒絕檢測等任務

模型特點

推理式安全防護
採用逐步推理方式分析AI交互,確保判斷與推理過程的一致性
多任務聯合檢測
同時執行提示有害性檢測、拒絕檢測和響應有害性檢測三項任務
高效微調技術
採用R-SFT和HS-DPO等先進微調方法優化模型性能

模型能力

文本分類
有害內容檢測
AI響應評估
多任務推理

使用案例

AI安全監控
社交媒體內容審核
檢測用戶與AI交互中的有害內容和不當響應
可準確識別潛在有害交互並提供安全評估
AI助手安全防護
監控AI助手的響應是否符合安全規範
有效檢測AI是否遵從或拒絕有害請求
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase