G

Gemma 2B Rewardmodel Baseline

Ray2333によって開発
Gemma-2b-itモデルをベースに、BT損失関数を用いてトレーニングされた評価モデルで、大規模言語モデル向けの高品質な小型評価モデルとして適しています
ダウンロード数 133
リリース時間 : 7/5/2024

モデル概要

このモデルはGemma-2b-itアーキテクチャをベースにした評価モデルで、BT損失関数を用いてトレーニングされ、トレーニングデータセットはpreference_700Kです。主に大規模言語モデルの出力品質を評価・選択するために使用されます。

モデル特徴

効率的な評価モデル
小型ながら効率的な評価モデルで、大規模言語モデルの出力品質を評価するのに適しています
BT損失関数によるトレーニング
Bradley-Terry(BT)損失関数を用いて最適化トレーニングを実施
多次元評価能力
対話能力、安全性、推論能力など複数の次元を評価可能

モデル能力

テキスト品質評価
対話能力評価
安全性評価
推論能力評価

使用事例

言語モデル評価
LLM出力品質評価
大規模言語モデルが生成するテキストの品質を評価
reward model benchmarkで73.7の総合評価を獲得
対話システム最適化
対話システムの応答品質を最適化するために使用
対話能力評価は94.1
コンテンツセキュリティ
コンテンツセキュリティフィルタリング
生成コンテンツの安全性を評価
安全性評価は79.6
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase