L

Llama Guard 3 8B

Developed by meta-llama
Llama Guard 3是基于Llama-3.1-8B预训练模型微调的内容安全分类器,用于LLM输入和响应的内容审核。
Downloads 327.59k
Release Time : 7/22/2024

Model Overview

Llama Guard 3是一个内容安全分类器,可用于大型语言模型(LLM)的输入(提示分类)和响应(响应分类)的内容审核。作为LLM运行,它会生成文本输出指示内容安全性,若不安全则列出违反的类别。

Model Features

多语言支持
支持8种语言的提示和响应分类,包括英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语和泰语
14类危害检测
基于MLCommons分类法的13类危害及代码解释器滥用共14类进行训练,覆盖广泛的安全风险
低误报率
相比前代模型和GPT-4,在保持高F1分数的同时显著降低误报率
工具使用场景支持
新增对搜索工具和代码解释器等工具使用场景的安全检测能力

Model Capabilities

提示分类
响应分类
多语言内容审核
安全风险检测
代码解释器滥用检测

Use Cases

内容审核
LLM输入过滤
检测用户输入中可能包含的有害或违规内容
有效识别暴力、仇恨言论等14类危害内容
LLM输出过滤
检测模型响应中可能包含的有害或违规内容
防止模型生成不当响应,降低法律和声誉风险
安全合规
多语言平台审核
为多语言平台提供统一的内容安全解决方案
支持8种语言的违规内容检测
工具使用安全
检测代码解释器等工具使用中的潜在滥用行为
识别拒绝服务攻击、权限提升等恶意用途
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase