A

Aegis AI Content Safety LlamaGuard Defensive 1.0

由nvidia開發
基於Llama Guard參數高效指令調優的內容安全模型,覆蓋13個關鍵安全風險類別
下載量 973.08k
發布時間 : 4/17/2024

模型概述

該模型是一個LLM內容安全分類器,用於審核用戶提示或對話內容是否違反安全策略,輸出安全評估結果及違規類別。

模型特點

多類別安全審核
支持13個關鍵不安全風險類別的檢測,包括暴力、仇恨言論、隱私洩露等
策略可定製
可通過修改系統提示中的分類法和策略適配新的安全需求
指令調優優化
基於11,000標註數據對Llama Guard進行參數高效指令調優

模型能力

用戶提示安全分類
對話內容審核
多類別違規檢測
自定義策略適配

使用案例

內容審核
聊天機器人安全過濾
部署在聊天機器人前端過濾用戶不安全提示
阻止暴力、仇恨言論等13類不安全內容
社區內容審核
自動化審核論壇/社交媒體用戶生成內容
識別需人工複核的可疑內容
合規檢查
隱私合規檢查
檢測對話中是否包含受保護的個人身份信息
確保符合GDPR等隱私法規
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase