G

Granite Guardian 3.0 8b

ibm-graniteによって開発
Granite Guardian 3.0 8Bは、IBM Researchによって開発された、Granite 3.0 8B命令モデルを微調整したもので、プロンプトと応答内のリスク内容を検出するために特別に設計されています。
ダウンロード数 2,048
リリース時間 : 10/15/2024

モデル概要

このモデルは、IBMのAIリスクマップに記載されている複数の重要な次元のリスクを検出することを目的としており、危害、社会的偏見、脱獄攻撃、暴力、冒とく的表現、色情的内容、不道徳行為などが含まれます。また、RAGパイプライン内のホールシネーションリスクを評価するためにも使用できます。

モデル特徴

多次元リスク検出
危害、社会的偏見、脱獄攻撃、暴力、冒とく的表現、色情的内容、不道徳行為など、さまざまなリスクタイプを検出することができます。
RAGホールシネーションリスク評価
RAGパイプライン内のコンテキスト関連性、事実根拠性、回答関連性などのホールシネーションリスクを評価できます。
高いパフォーマンス
標準ベンチマークテストで優れた結果を示し、特に脱獄攻撃プロンプトに対する再現率は1.0に達します。
柔軟な設定
guardian_configパラメータを使用して、検出する必要のあるリスクタイプを柔軟に設定できます。

モデル能力

リスク内容検出
RAGホールシネーション評価
テキストセキュリティ分析
内容フィルタリング

使用事例

コンテンツセキュリティ
有害内容検出
ユーザー入力またはAI応答内の有害内容(暴力、冒とく的表現など)を検出します。
AegisSafetyTestベンチマークテストでF1スコアが0.87に達しました
社会的偏見識別
身分や特徴に基づく偏見内容を識別します。
RAG品質保証
事実根拠性チェック
AI応答が提供されたコンテキストに正確かつ忠実であるかを検証します。
TRUEベンチマークテストで平均AUCが0.85に達しました
回答関連性評価
AI応答がユーザーのクエリに直接回答しているかを評価します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase