G

Guardreasoner 3B

由yueliu1999開發
基於Llama-3.2-3B通過R-SFT和HS-DPO方法微調的安全防護模型,用於分析人機交互中的有害內容
下載量 172
發布時間 : 1/31/2025

模型概述

該模型是一個用於分析人機交互的分類器,能夠判斷用戶請求和AI響應的危害性,以及AI的拒絕或遵從行為

模型特點

安全防護
專門設計用於檢測人機交互中的有害內容和行為
多任務分析
同時執行請求危害性檢測、拒絕行為檢測和響應危害性檢測三項任務
推理能力
採用逐步推理的方式確保判斷過程的邏輯性和一致性

模型能力

文本分類
有害內容檢測
行為分析
多任務推理

使用案例

內容安全
社交媒體內容審核
檢測社交媒體平臺上的有害用戶請求和AI響應
有效識別潛在有害內容
AI助手安全防護
監控AI助手與用戶的交互,防止有害內容傳播
提高AI助手的安全性
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase