G

Granite Guardian 3.1 2b

由ibm-granite開發
Granite Guardian 3.1 2B是一個經過微調的Granite 3.1 2B指令模型,旨在檢測提示和響應中的風險。它可以依據IBM AI風險圖譜中列出的多個關鍵維度進行風險檢測。
下載量 1,921
發布時間 : 12/17/2024

模型概述

該模型基於包含人工註釋和內部紅隊測試生成的合成數據進行訓練,在標準基準測試中,其性能優於同領域的其他開源模型。

模型特點

多維度風險檢測
能夠在多個關鍵維度上檢測提示和響應中的風險,如危害相關風險、RAG用例中的風險以及代理工作流中的函數調用風險等。
高性能表現
在標準基準測試中,該模型優於同領域的其他開源模型。
可定製性
適用於自定義風險定義,但需要進行測試。

模型能力

危害相關風險檢測
RAG用例中的風險檢測
代理工作流中的函數調用風險檢測

使用案例

危害相關風險檢測
檢測用戶提示中的有害內容
評估用戶提供的文本是否包含危害相關風險。
在ToxicChat數據集中的越獄提示上的召回率為0.90。
檢測模型響應中的有害內容
評估模型生成的文本是否包含危害相關風險。
RAG用例中的風險檢測
評估上下文相關性
檢索到的上下文是否與查詢相關。
在TRUE基準測試中的平均AUC為0.84。
評估事實依據性
響應是否準確且忠實於提供的上下文。
代理工作流中的函數調用風險檢測
檢測函數調用幻覺
評估函數調用的有效性和檢測虛假信息。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase