G

Guardreasoner 1B

由yueliu1999開發
GuardReasoner 1B是基於meta-llama/Llama-3.2-1B通過R-SFT和HS-DPO微調的版本,專注於分析人類與AI交互的分類任務。
下載量 154
發布時間 : 1/31/2025

模型概述

該模型用於分析人類與AI交互的分類任務,判斷用戶請求和AI響應的危害性,以及AI是否拒絕或遵從請求。

模型特點

基於推理的防護機制
通過逐步推理判斷用戶請求和AI響應的危害性,確保推理與答案之間的一致性。
多任務分類
同時完成三項任務:判斷用戶請求的危害性、AI是否拒絕或遵從請求、以及AI響應的危害性。
高效微調
通過R-SFT和HS-DPO微調技術優化模型性能。

模型能力

文本分類
危害性檢測
拒絕檢測
多任務推理

使用案例

AI安全
檢測有害用戶請求
分析用戶請求是否包含有害內容,如虛假信息或不當請求。
準確判斷請求的危害性
評估AI響應安全性
判斷AI助手的響應是否遵從或拒絕有害請求,以及響應本身是否有害。
確保AI響應的安全性
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase