A

Aegis AI Content Safety LlamaGuard Permissive 1.0

nvidiaによって開発
Llama Guardをファインチューニングしたコンテンツセキュリティ検出モデルで、13種類の主要なセキュリティリスクをカバー
ダウンロード数 316
リリース時間 : 4/17/2024

モデル概要

このモデルは、テキスト内の安全でないコンテンツを識別・分類するための大規模言語モデルコンテンツセキュリティ検出システムです。Llama Guardアーキテクチャを基盤としており、Nvidiaのコンテンツセキュリティデータセットでパラメータ効率の良い命令ファインチューニングが行われています。

モデル特徴

包括的なセキュリティリスクカバレッジ
Nvidiaが定義した13種類の主要セキュリティリスク分類体系をカバー(1種類の安全コンテンツと1種類の'注意が必要'コンテンツを含む)
柔軟な審査能力
ユーザー入力、部分的なダイアログ、または完全なダイアログを審査可能で、セキュリティ状態と違反したポリシーカテゴリを出力
拡張可能なセキュリティポリシー
新しいセキュリティリスクカテゴリとポリシーを命令で拡張可能
効率的なファインチューニング手法
パラメータ効率の良い命令ファインチューニング(PEFT)技術を使用し、約11,000件の注釈付きダイアログデータで訓練

モデル能力

テキストコンテンツセキュリティ検出
マルチターンダイアログ審査
セキュリティリスク分類
カスタムポリシー拡張

使用事例

コンテンツセキュリティ
大規模言語モデルコンテンツ保護
汎用大規模言語モデルが生成するコンテンツにセキュリティ保護を提供
安全でないコンテンツを効果的に識別・分類可能
テキスト毒性検出
任意のテキストコンテンツの毒性分類に使用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase