G

Granite Guardian 3.0 8b

由ibm-granite開發
Granite Guardian 3.0 8B是由IBM Research開發的經過微調的Granite 3.0 8B指令模型,專門用於檢測提示和回覆中的風險內容。
下載量 2,048
發布時間 : 10/15/2024

模型概述

該模型旨在檢測IBM AI風險圖譜中列出的多個關鍵維度的風險,包括危害、社會偏見、越獄攻擊、暴力、褻瀆、色情內容和不道德行為等。同時也可用於評估RAG管道中的幻覺風險。

模型特點

多維度風險檢測
能夠檢測包括危害、社會偏見、越獄攻擊、暴力、褻瀆、色情內容和不道德行為等多種風險類型。
RAG幻覺風險評估
可評估RAG管道中的上下文相關性、事實依據性和答案相關性等幻覺風險。
高性能表現
在標準基準測試中表現出色,特別是在越獄攻擊提示上的召回率達到1.0。
靈活配置
支持通過guardian_config參數靈活配置需要檢測的風險類型。

模型能力

風險內容檢測
RAG幻覺評估
文本安全分析
內容過濾

使用案例

內容安全
有害內容檢測
檢測用戶輸入或AI回覆中的有害內容,如暴力、褻瀆等。
在AegisSafetyTest基準測試中F1分數達到0.87
社會偏見識別
識別基於身份或特徵的偏見內容。
RAG質量保證
事實依據性檢查
驗證AI回覆是否準確且忠實於提供的上下文。
在TRUE基準測試中平均AUC達到0.85
答案相關性評估
評估AI回覆是否直接回答了用戶的查詢。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase