D

Decision Tree Reward Gemma 2 27B

RLHFlowによって開発
Gemma-2-27Bをファインチューニングした決定木報酬モデルで、言語モデルが生成するコンテンツの品質評価に使用され、RewardBenchランキングで優れた性能を発揮しています。
ダウンロード数 18
リリース時間 : 1/22/2025

モデル概要

このモデルは決定木手法を用いて言語モデルの選好を解釈し、回答の有用性、正確性、一貫性などの次元を評価でき、強化学習人間フィードバック(RLHF)シナリオに適しています。

モデル特徴

決定木アーキテクチャ
決定木手法を用いて言語モデルの出力を分析し、従来のシーケンス分類器と比べて複数の品質次元をより詳細に評価可能
多次元評価
有用性、正確性、一貫性、複雑性、詳細度の5つの主要次元を同時に評価可能
高性能
RewardBenchランキングで総合スコア95.4を達成し、特に困難な対話(91.4)と推論能力(99.2)で顕著な性能を発揮

モデル能力

テキスト品質評価
多次元スコアリング
回答比較
強化学習フィードバック

使用事例

言語モデルトレーニング
RLHFトレーニング
報酬モデルとして強化学習人間フィードバックトレーニングプロセスに使用
より正確な選好信号を提供し、言語モデルの生成品質を向上
コンテンツ評価
自動評価
言語モデルが生成するコンテンツの品質を評価
多次元スコアを提供し、最適な回答の選定を支援
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase