A

Aegis AI Content Safety LlamaGuard Defensive 1.0

nvidiaによって開発
Llama Guardのパラメータ効率的な指示チューニングに基づくコンテンツセーフティモデル、13の主要な安全リスクカテゴリをカバー
ダウンロード数 973.08k
リリース時間 : 4/17/2024

モデル概要

このモデルはLLMコンテンツセーフティ分類器で、ユーザープロンプトや会話内容がセキュリティポリシーに違反しているかどうかを審査し、安全評価結果と違反カテゴリを出力します。

モデル特徴

マルチカテゴリセーフティ審査
暴力、ヘイトスピーチ、プライバシー漏洩など13の主要な安全リスクカテゴリの検出をサポート
ポリシーカスタマイズ可能
システムプロンプトの分類法とポリシーを変更することで新しいセキュリティ要件に適応可能
指示チューニング最適化
11,000の注釈付きデータに基づきLlama Guardをパラメータ効率的に指示チューニング

モデル能力

ユーザープロンプトセーフティ分類
会話内容審査
マルチカテゴリ違反検出
カスタムポリシー適応

使用事例

コンテンツモデレーション
チャットボットセーフティフィルタリング
チャットボットのフロントエンドに配置し、ユーザーの安全でないプロンプトをフィルタリング
暴力、ヘイトスピーチなど13種類の安全でないコンテンツをブロック
コミュニティコンテンツ審査
フォーラム/ソーシャルメディアのユーザー生成コンテンツを自動審査
手動レビューが必要な疑わしいコンテンツを識別
コンプライアンスチェック
プライバシーコンプライアンスチェック
会話に保護対象の個人識別情報が含まれているか検出
GDPRなどのプライバシー規制への準拠を確保
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase