F

Fsfairx LLaMA3 RM V0.1

sfairXCによって開発
Meta-Llama-3-8B-Instructをベースに訓練された報酬モデルで、RLHFプロセスにおける報酬モデリングをサポートし、PPO、反復SFT、反復DPO手法に対応しています。
ダウンロード数 4,157
リリース時間 : 4/20/2024

モデル概要

このモデルは強化学習人間フィードバック(RLHF)プロセス用の報酬モデルで、対話品質を評価し報酬信号を提供することで、言語モデルの生成結果を最適化するのに役立ちます。

モデル特徴

高性能報酬モデリング
Reward-Benchランキングで優れた成績を収め、現在最も先進的なオープンソース報酬モデルの一つです。
複数のRLHF手法をサポート
PPO、反復SFT、反復DPOなど様々な強化学習人間フィードバック手法に使用可能です。
Llama-3アーキテクチャベース
Meta-Llama-3-8B-Instructモデルをファインチューニングしており、その強力な言語理解能力を継承しています。

モデル能力

対話品質評価
報酬信号生成
強化学習フィードバック

使用事例

言語モデル最適化
RLHFプロセスにおける報酬モデリング
強化学習人間フィードバックプロセスで報酬モデルとして使用し、言語モデルの最適化を導きます。
言語モデルの対話品質と安全性を大幅に向上させることが可能
対話システム評価
対話品質スコアリング
対話システムの応答に対して品質評価と採点を行います。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase