L

Llamaguard 7b

由llamas-community開發
基於70億參數Llama 2的安全防護模型,用於對LLM輸入輸出內容進行安全分類
下載量 151
發布時間 : 12/7/2023

模型概述

Llama-Guard是一個基於Llama 2的安全防護模型,可用於對LLM輸入(提示分類)和LLM響應(響應分類)中的內容進行安全評估。它通過生成文本來判斷內容是否安全,並在違反政策時列出具體違規子類別。

模型特點

雙重內容審核
可同時對LLM輸入(提示)和輸出(響應)進行安全評估
細粒度分類
不僅判斷安全/不安全,還能識別具體違規子類別(如暴力、性相關內容等)
概率輸出
提供概率分數而非簡單二元判定,允許用戶自定義安全閾值

模型能力

內容安全評估
違規內容檢測
多類別風險識別

使用案例

LLM安全防護
提示詞審核
在LLM處理用戶輸入前進行安全篩查
有效識別潛在有害提示
響應內容審核
對LLM生成內容進行安全評估後再返回給用戶
防止輸出有害內容
內容審核系統
社區內容審核
集成到社交媒體平臺的內容審核流程中
自動識別並過濾違規內容
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase