L

Llama Guard 3 8B

meta-llamaによって開発
Llama Guard 3はLlama-3.1-8B事前学習モデルを微調整したコンテンツセキュリティ分類器で、LLMの入力と応答のコンテンツ審査に使用されます。
ダウンロード数 327.59k
リリース時間 : 7/22/2024

モデル概要

Llama Guard 3はコンテンツセキュリティ分類器で、大規模言語モデル(LLM)の入力(プロンプト分類)と応答(レスポンス分類)のコンテンツ審査に使用できます。LLMとして実行され、コンテンツの安全性を示すテキスト出力を生成し、安全でない場合は違反したカテゴリをリストアップします。

モデル特徴

多言語サポート
英語、フランス語、ドイツ語、ヒンディー語、イタリア語、ポルトガル語、スペイン語、タイ語を含む8言語のプロンプトとレスポンス分類をサポート
14種類の危害検出
MLCommons分類法に基づく13種類の危害とコードインタプリタの悪用を含む合計14種類で訓練され、広範なセキュリティリスクをカバー
低誤検出率
前世代モデルやGPT-4と比較し、高いF1スコアを維持しながら誤検出率を大幅に低減
ツール使用シナリオサポート
検索ツールやコードインタプリタなどのツール使用シナリオに対するセキュリティ検出機能を新たに追加

モデル能力

プロンプト分類
レスポンス分類
多言語コンテンツ審査
セキュリティリスク検出
コードインタプリタ悪用検出

使用事例

コンテンツ審査
LLM入力フィルタリング
ユーザー入力に含まれる可能性のある有害または違反コンテンツを検出
暴力、ヘイトスピーチなど14種類の危害コンテンツを効果的に識別
LLM出力フィルタリング
モデルの応答に含まれる可能性のある有害または違反コンテンツを検出
モデルが不適切な応答を生成するのを防止し、法的および評判リスクを低減
セキュリティコンプライアンス
多言語プラットフォーム審査
多言語プラットフォームに統一されたコンテンツセキュリティソリューションを提供
8言語の違反コンテンツ検出をサポート
ツール使用セキュリティ
コードインタプリタなどのツール使用における潜在的な悪用行為を検出
サービス拒否攻撃、権限昇格などの悪意のある用途を識別
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase