L

Llama 3 OffsetBias RM 8B

NCSOFTによって開発
OffsetBiasデータセットでトレーニングされた報酬モデルで、評価モデルのバイアスに対してより高いロバスト性を備えています
ダウンロード数 1,782
リリース時間 : 7/11/2024

モデル概要

このモデルはLlama-3アーキテクチャに基づく報酬モデルで、評価モデル時に一般的な様々なバイアスを軽減するために特別に設計されています。複数の高品質データセットを融合してトレーニングされており、公平な評価が必要なシナリオに特に適しています。

モデル特徴

バイアス耐性
評価モデルで一般的な様々なバイアスに特化して最適化され、より公平なスコアリングを提供します
マルチデータセット融合
UltraFeedback、HelpSteerなどの複数の高品質データセットを組み合わせてトレーニングされています
モデル融合技術
中間モデルと基本報酬モデルの融合を通じて最終モデルを獲得します

モデル能力

テキスト品質評価
対話応答スコアリング
安全性評価
推論能力評価

使用事例

AI対話評価
チャットボット応答スコアリング
チャットボットの返答の品質と関連性を評価します
RewardBenchチャット評価で97.21点を獲得
コンテンツ安全評価
有害コンテンツ検出
潜在的に有害または不適切なコンテンツを識別しスコアリングします
RewardBench安全性評価で89.01点を獲得
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase