R

RM Gemma 2B

weqweasdasによって開発
google/gemma-2b-itを基に訓練された報酬モデルで、テキスト生成品質を評価するために使用されます
ダウンロード数 2,618
リリース時間 : 2/25/2024

モデル概要

この報酬モデルはGemma-2Bベースモデルを基に訓練されており、異なるテキスト生成結果の品質を評価・ランク付けするために特別に設計されています。強化学習人間フィードバック(RLHF)シナリオに適しています。

モデル特徴

多様なデータセットでの訓練
HH-RLHF、SHP、UltraFeedbackなど6つの高品質データセットを統合し、合計25万組の比較データを収集
厳格なデータクリーニング
有意な差異サンプルの保持、等しいスコアサンプルの削除など、複数の戦略で比較データの品質を確保
効率的な訓練設定
学習率1e-5、バッチサイズ256、コサイン学習率減衰などを採用し訓練プロセスを最適化

モデル能力

テキスト品質スコアリング
生成結果ランキング
対話応答評価
強化学習フィードバック

使用事例

強化学習
リジェクトサンプリング微調整
RLHFプロセスのリジェクトサンプリング段階で使用し、高品質な生成結果を選別
RAFT(報酬ランキング微調整)アルゴリズムに直接使用可能
対話システム
チャットボット応答評価
異なるチャットボット応答の品質を評価し、最適な返答を選択
MT Benchなどのベンチマークテストで良好な性能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase