G

Granite Guardian 3.1 2b

由 ibm-granite 开发
Granite Guardian 3.1 2B是一个经过微调的Granite 3.1 2B指令模型,旨在检测提示和响应中的风险。它可以依据IBM AI风险图谱中列出的多个关键维度进行风险检测。
下载量 1,921
发布时间 : 12/17/2024

模型简介

该模型基于包含人工注释和内部红队测试生成的合成数据进行训练,在标准基准测试中,其性能优于同领域的其他开源模型。

模型特点

多维度风险检测
能够在多个关键维度上检测提示和响应中的风险,如危害相关风险、RAG用例中的风险以及代理工作流中的函数调用风险等。
高性能表现
在标准基准测试中,该模型优于同领域的其他开源模型。
可定制性
适用于自定义风险定义,但需要进行测试。

模型能力

危害相关风险检测
RAG用例中的风险检测
代理工作流中的函数调用风险检测

使用案例

危害相关风险检测
检测用户提示中的有害内容
评估用户提供的文本是否包含危害相关风险。
在ToxicChat数据集中的越狱提示上的召回率为0.90。
检测模型响应中的有害内容
评估模型生成的文本是否包含危害相关风险。
RAG用例中的风险检测
评估上下文相关性
检索到的上下文是否与查询相关。
在TRUE基准测试中的平均AUC为0.84。
评估事实依据性
响应是否准确且忠实于提供的上下文。
代理工作流中的函数调用风险检测
检测函数调用幻觉
评估函数调用的有效性和检测虚假信息。
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase