L

Llama Guard 3 8B

由meta-llama開發
Llama Guard 3是基於Llama-3.1-8B預訓練模型微調的內容安全分類器,用於LLM輸入和響應的內容審核。
下載量 327.59k
發布時間 : 7/22/2024

模型概述

Llama Guard 3是一個內容安全分類器,可用於大型語言模型(LLM)的輸入(提示分類)和響應(響應分類)的內容審核。作為LLM運行,它會生成文本輸出指示內容安全性,若不安全則列出違反的類別。

模型特點

多語言支持
支持8種語言的提示和響應分類,包括英語、法語、德語、印地語、意大利語、葡萄牙語、西班牙語和泰語
14類危害檢測
基於MLCommons分類法的13類危害及代碼解釋器濫用共14類進行訓練,覆蓋廣泛的安全風險
低誤報率
相比前代模型和GPT-4,在保持高F1分數的同時顯著降低誤報率
工具使用場景支持
新增對搜索工具和代碼解釋器等工具使用場景的安全檢測能力

模型能力

提示分類
響應分類
多語言內容審核
安全風險檢測
代碼解釋器濫用檢測

使用案例

內容審核
LLM輸入過濾
檢測用戶輸入中可能包含的有害或違規內容
有效識別暴力、仇恨言論等14類危害內容
LLM輸出過濾
檢測模型響應中可能包含的有害或違規內容
防止模型生成不當響應,降低法律和聲譽風險
安全合規
多語言平臺審核
為多語言平臺提供統一的內容安全解決方案
支持8種語言的違規內容檢測
工具使用安全
檢測代碼解釋器等工具使用中的潛在濫用行為
識別拒絕服務攻擊、權限提升等惡意用途
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase