G

Guardreasoner 3B

yueliu1999によって開発
Llama-3.2-3Bを基にR-SFTとHS-DPO手法でファインチューニングしたセキュリティ保護モデルで、人間と機械のインタラクションにおける有害コンテンツを分析するために使用されます
ダウンロード数 172
リリース時間 : 1/31/2025

モデル概要

このモデルは、人間と機械のインタラクションを分析する分類器で、ユーザーリクエストとAI応答の有害性、およびAIの拒否または従属行動を判断できます

モデル特徴

セキュリティ保護
人間と機械のインタラクションにおける有害コンテンツや行動を検出するために特別に設計されています
マルチタスク分析
リクエストの有害性検出、拒否行動検出、応答の有害性検出の3つのタスクを同時に実行します
推論能力
段階的な推論方法を採用し、判断プロセスの論理性と一貫性を確保します

モデル能力

テキスト分類
有害コンテンツ検出
行動分析
マルチタスク推論

使用事例

コンテンツセキュリティ
ソーシャルメディアコンテンツ審査
ソーシャルメディアプラットフォーム上の有害なユーザーリクエストとAI応答を検出します
潜在的な有害コンテンツを効果的に識別します
AIアシスタントのセキュリティ保護
AIアシスタントとユーザー間のインタラクションを監視し、有害コンテンツの拡散を防止します
AIアシスタントの安全性を向上させます
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase