G

Guardreasoner 1B

yueliu1999によって開発
GuardReasoner 1Bはmeta-llama/Llama-3.2-1BをR-SFTとHS-DPOで微調整したバージョンで、人間とAIの相互作用を分析する分類タスクに特化しています。
ダウンロード数 154
リリース時間 : 1/31/2025

モデル概要

このモデルは人間とAIの相互作用を分析する分類タスクに使用され、ユーザーリクエストとAI応答の有害性、およびAIがリクエストを拒否または従うかどうかを判断します。

モデル特徴

推論ベースの保護メカニズム
段階的な推論によりユーザーリクエストとAI応答の有害性を判断し、推論と回答の一貫性を確保します。
マルチタスク分類
3つのタスクを同時に実行:ユーザーリクエストの有害性判断、AIがリクエストを拒否または従うかどうか、AI応答の有害性判断。
効率的な微調整
R-SFTとHS-DPO微調整技術によりモデル性能を最適化。

モデル能力

テキスト分類
有害性検出
拒否検出
マルチタスク推論

使用事例

AIセキュリティ
有害なユーザーリクエストの検出
ユーザーリクエストに虚偽情報や不適切な要求などの有害コンテンツが含まれているか分析します。
リクエストの有害性を正確に判断
AI応答の安全性評価
AIアシスタントの応答が有害リクエストに従うか拒否するか、および応答自体が有害かどうかを判断します。
AI応答の安全性を確保
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase