L

Llamaguard 7b

llamas-communityによって開発
70億パラメータのLlama 2を基にしたセキュリティ保護モデルで、LLMの入力出力内容を安全に分類するために使用されます
ダウンロード数 151
リリース時間 : 12/7/2023

モデル概要

Llama-GuardはLlama 2を基にしたセキュリティ保護モデルで、LLM入力(プロンプト分類)とLLM応答(レスポンス分類)の内容を安全に評価するために使用できます。テキスト生成を通じて内容が安全かどうかを判断し、ポリシー違反がある場合は具体的な違反サブカテゴリをリストアップします。

モデル特徴

二重コンテンツ審査
LLM入力(プロンプト)と出力(レスポンス)の両方を同時に安全評価できます
細粒度分類
安全/不安全だけでなく、具体的な違反サブカテゴリ(暴力、性的コンテンツなど)も識別できます
確率出力
単純な二値判定ではなく確率スコアを提供し、ユーザーが安全閾値をカスタマイズできるようにします

モデル能力

コンテンツセキュリティ評価
違反コンテンツ検出
多カテゴリリスク識別

使用事例

LLMセキュリティ保護
プロンプト審査
LLMがユーザー入力を処理する前に安全スクリーニングを行います
潜在的に有害なプロンプトを効果的に識別します
レスポンスコンテンツ審査
LLMが生成したコンテンツを安全評価してからユーザーに返します
有害なコンテンツの出力を防止します
コンテンツ審査システム
コミュニティコンテンツ審査
ソーシャルメディアプラットフォームのコンテンツ審査プロセスに統合します
違反コンテンツを自動的に識別しフィルタリングします
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase