Model Selection

RLHF reward model

# RLHF reward model

A reward model trained on Mistral-7B for response quality evaluation in Reinforcement Learning from Human Feedback (RLHF) scenarios

Large Language Model

A reward model trained on google/gemma-2b-it for evaluating text generation quality

Large Language Model

Gpt2 Large Helpful Reward Model

A GPT2 large model trained on the Anthropic/hh-rlhf helpfulness dataset, specifically designed for helpful response detection or RLHF (Reinforcement Learning from Human Feedback).

Large Language Model

Prometheus 13b V1.0

Prometheus is an evaluation-focused language model fine-tuned from Llama-2-Chat, excelling at assessing text quality against custom criteria, serving as a cost-effective alternative to GPT-4 evaluation.

Large Language Model

Transformers English

prometheus-eval

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase