A

Aegis AI Content Safety LlamaGuard Permissive 1.0

由nvidia開發
基於Llama Guard微調的內容安全檢測模型,覆蓋13類關鍵安全風險
下載量 316
發布時間 : 4/17/2024

模型概述

該模型是一個大語言模型內容安全檢測系統,用於識別和分類文本中的不安全內容。它基於Llama Guard架構,在Nvidia內容安全數據集上進行了參數高效指令微調。

模型特點

全面的安全風險覆蓋
覆蓋Nvidia定義的13類關鍵安全風險分類體系,包括1類安全內容和1類'需謹慎'內容
靈活的審核能力
可對用戶輸入、部分對話或完整對話進行審核,輸出安全狀態及違反的策略類別
可擴展的安全策略
支持通過指令擴展新的安全風險類別和策略
高效的微調方法
使用參數高效指令微調(PEFT)技術,在約11,000條標註對話數據上訓練

模型能力

文本內容安全檢測
多輪對話審核
安全風險分類
自定義策略擴展

使用案例

內容安全
大語言模型內容防護
為通用大語言模型生成內容提供安全防護
能有效識別不安全內容並分類
文本毒性檢測
用於任意文本內容的毒性分類
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase