G

Granite Guardian 3.0 8b

由 ibm-granite 开发
Granite Guardian 3.0 8B是由IBM Research开发的经过微调的Granite 3.0 8B指令模型,专门用于检测提示和回复中的风险内容。
下载量 2,048
发布时间 : 10/15/2024

模型简介

该模型旨在检测IBM AI风险图谱中列出的多个关键维度的风险,包括危害、社会偏见、越狱攻击、暴力、亵渎、色情内容和不道德行为等。同时也可用于评估RAG管道中的幻觉风险。

模型特点

多维度风险检测
能够检测包括危害、社会偏见、越狱攻击、暴力、亵渎、色情内容和不道德行为等多种风险类型。
RAG幻觉风险评估
可评估RAG管道中的上下文相关性、事实依据性和答案相关性等幻觉风险。
高性能表现
在标准基准测试中表现出色,特别是在越狱攻击提示上的召回率达到1.0。
灵活配置
支持通过guardian_config参数灵活配置需要检测的风险类型。

模型能力

风险内容检测
RAG幻觉评估
文本安全分析
内容过滤

使用案例

内容安全
有害内容检测
检测用户输入或AI回复中的有害内容,如暴力、亵渎等。
在AegisSafetyTest基准测试中F1分数达到0.87
社会偏见识别
识别基于身份或特征的偏见内容。
RAG质量保证
事实依据性检查
验证AI回复是否准确且忠实于提供的上下文。
在TRUE基准测试中平均AUC达到0.85
答案相关性评估
评估AI回复是否直接回答了用户的查询。
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase